НПО Системы Безопасности
(499)340-94-73 График работы:
ПН-ПТ: 10:00-19:00
СБ-ВС: выходной

Главная » Периодика » Безопасность

0 ... 3456789 ... 48


При обмене и обработке данных; самоконтролирующиеся функциональные узлы (регистры, арифметико-логическое устройство, запоминающее устройство и т. п.).

3. ОТКАЗОУСТОЙЧИВЫЕ СИСТЕМЫ НА ОСНОВЕ МИКРОПРОЦЕССОРОВ И БИС

Большинство современных отказоустойчивых систем являются микропроцессорными, т. е. содержат МП и микросхемы микропроцессорных комплектов. Характерной особенностью таких систем является использование, наряду с МП, других больших интегральных схем, которые позволяют расширить функциональные возможности и повысить производительность многомашинных систем.

Одними из первых отказоустойчивых многомашинных систем типа С12 с разделением памяти являются системы С. тшр и С. ш [12]. Отказоустойчивость в них обеспечивается за счет использования различных встроенных аппаратных и программных средств контроля и диагностирования.

В мультипроцессорной системе С. штр (рис. 7) процессоры П1...П16, построенные на основе мини-ЭВМ РДР-11, через блоки БОА и матричный коммутатор KMC имеют доступ к разделяемой памяти на основе портов общей памяти ПП1...ПП16.

Обмен сигналами между процессорами системы осуществляется по шине МПШ, через которую производится общее тактирование, прерывание и управление на межпроцессорном уровне. В системе предусмотрены аппаратные и программные средства контроля. Аппаратный побайтный контроль по четности процессора позволяет, в частности, выявить ошибки в системе синхронизации. Некоторые проверки производятся KMC. Так, признак четности адреса проверяется в интерфейсе коммутатора, а образование и проверка признаков четности данных -в интерфейсе между коммутатором и шиной, входящим в блок БОА.

Перемежающиеся отказы (обращение к несуществующей области памяти, ошибки в стеке, приводящие к неправильному выполнению команд вызова (возврата) подпрограмм, выходу в прерывание и др.) обнаруживаются путем комбинированного использования аппаратных и программных средств, а также программного восстановления. Различают восстановление системы для двух групп отказов: первая для частых отказов (например, перемежающихся) и вторая для редких, но существенных отказов, которые могут привести к полному останову системы.

К основным отказам первой группы относятся отказы межпроцессорного прерывания, выход за границы прямого доступа



к памяти, нарушение признака четности йа страницах, предоставленных пользователю. Ошибки при потерянном прерывании исправляются при перезаписи из маски в регистр запроса на прерывание. При выходе за границу памяти в режиме прямого доступа к памяти производится пятикратное повторение обращения внешних контроллеров. Затем во все процессоры, кроме обращающихся, посылаются сигналы прерывания на выполнение программ, связанных с местной памятью.

KMC - БОА - П1

БОА - nW

Рис. 7. Структура системы С. mmp:

ПП1-ПП1£ - порты памяти; П1-П16 - процессоры; KMC - матричный коммутатор системы; БОА - блок отображения памяти; КМИ - контроллер межшинного интерфейса; КСН - контроллер синхронизации; ММ - локальная местная память; МС страничная память; МПШ межпроцессорная

шина

Нарушение признака четности страниц выявляет программа поиска ошибок, которая выдает номера отказавших ячеек и адрес выполняемой команды. Это обеспечивает, с помощью следящих регистров, восстановление логической страницы в другой физической странице. Отказы второй группы, вызванные общесистемными ошибками, восстанавливаются с помощью механизма «подозрение/наблюдение», при котором делается пауза для прихода системы в известное состояние. Вызывается механизм двумя способами.

Первый способ - некоторый процессор проводит поиск ошибок в своем функционировании. При обнаружении оши-



бок процессор становится подозреваемым на отказ. Среди остальных процессоров выбирается наблюдающий, который осуществляет дальнейшее диагностирование и, в случае необходимости, замену подозреваемого процессора.

Второй способ - один наблюдающий процессор (сторож) программно проверяет подозреваемый на отказ процессор. Первоначально производится синхронизация этих двух процессоров. При отсутствии синхронизации наблюдающий процессор инициирует подозреваемый к выполнению программы восстановления, в частности, последовательности операций микропроцессорной шины. Сообщение о завершении операции передается наблюдающему процессору посредством общей переменной состояния. Если синхронизация не достигается, то наблюдающий процессор организует повторную загрузку.

При достижении синхронизации наблюдающий процессор контролирует выполнение последовательности операций подозреваемым процессором. Если не соблюдаются временные интервалы выполнения этих операций, то производится повторная загрузка. По результатам анализа выполнения последовательности операций наблюдающий процессор принимает решение о продолжении работы, исключении из работы, повторной загрузке и «успокоении» подозреваемого процессора. «Успокоение» разрешает обработку прерывания только от устройства Бвода-вьшода. Повторную загрузку системы может выполнять также механизм повторного запуска. Механизм включает корректировку масок конфигурации с учетом исключенных и «успокоенных» процессоров, составление списка свободной памяти (удаление страниц, содержащих ошибки) и загрузку копии ядра операционной системы.

Система восстанавливается также с использованием диагностического монитора, который запускает диагностическую программу в исключенном из конфигурации процессоре, с распечаткой получаемых результатов. При отсутствии ошибок в течение определенного времени монитор автоматически возвращает исключенный процессор в систему.

Экспериментальная проверка системы С. mmp показала низкое значение среднего времени между отказами (2,9-16,5 ч), значительную часть которых (до 37 % от общего количества) составили ошибки неизвестного происхождения.

Мдльтимикропроцессорная система С. m состоит из вычислительных модулей ВМ, соединенных между собой по группам общими шинами, а группы между собой - контроллером отображения К (рис. 8, а). Память каждого ВМ общедоступна другим ВМ. На рис. 8,а показана структура вычислительного модуля на основе ЭВМ LSI-П.



0 ... 3456789 ... 48