+7 (8634) 431-132

Мониторинг инженерных систем центров обработки данных: что, зачем и как?

Обновлено 27 декабря 2023 - 11 месяцев назад

Цель мониторинга - оперативно выявлять неполадки в инженерной инфраструктуре, обеспечивая бесперебойную работу всего ЦОДа. Без мониторинга невозможно обеспечить тот уровень доступности оборудования и надежности сервисов, который требуется современному бизнесу.

Центр обработки данных - это сложный технологический организм, состоящий из множества элементов и инженерных систем. Все его узлы функционируют и взаимодействуют для обеспечения бесперебойной работы серверного и телекоммуникационного оборудования. Размещая ИТ-инфраструктуру клиента на своей территории, оператор дата-центра должен сделать все возможное, чтобы все системы жизнеобеспечения машинного зала - кондиционирование, вентиляция, пожаротушение и др. - работали безупречно. - работают безупречно. Поэтому, построив высокотехнологичный объект, он должен поддерживать его в идеальном состоянии и не допускать сбоев и аварий.

Для того чтобы быть уверенным в том, что все системы ЦОДа работают в штатном режиме, необходим постоянный контроль, мониторинг его инженерных систем. С помощью системы мониторинга отслеживаются все технологические процессы и компоненты, входящие в состав ЦОД, оценивается их состояние, прогнозируются нештатные ситуации. Система обнаруживает любое, даже самое незначительное отклонение от нормы (например, повышение температуры в машинном зале) и сигнализирует об этом. Своевременно полученный сигнал позволяет принять меры и не допустить изменения показателей до критических - аварийных - значений.

Когда вам следует задуматься о мониторинге?

Было бы ошибкой считать, что целесообразность внедрения системы мониторинга зависит от каких-либо параметров ЦОДа, например его вместимости или количества стоек. Мониторинг инженерных систем необходим любому дата-центру, и об этом следует позаботиться еще на этапе проектирования. После того как объект будет запущен, внедрить систему будет очень сложно, как минимум придется приостановить работу дата-центра, что неприемлемо в принципе.

В систему мониторинга поступает информация от сотен объектов ЦОДа: трансформаторов, счетчиков электроэнергии, ИБП и других компонентов инженерной инфраструктуры. Это большая, сложная система, и все ее элементы - датчики, контроллеры, анализаторы тока и т. д. - должны быть выбраны на этапе проектирования ЦОДа, спланированы по месту расположения, решены и т. д. - должны быть выбраны на этапе проектирования ЦОД, спланировано их размещение, решены протоколы обмена данными, оценена совместимость и т.д. Таким образом, одним из этапов проектирования ЦОД является проектирование его системы мониторинга.

Проектная документация

Проектная документация системы мониторинга должна содержать следующие разделы:

  • список оборудования;
  • архитектура системы (расположение оборудования и схема расположения датчиков, схема сетевого подключения контроллеров и т.д.);
  • список всех контролируемых параметров с заданными (нормальными) значениями;
  • пороговые значения контролируемых параметров (для определения предаварийных и аварийных ситуаций).

Пороговые значения определяются в первую очередь ГОСТами, опытом эксплуатации тех или иных систем, а также параметрами SLA. Например, согласно отраслевым нормам, уровень напряжения не должен превышать 220 В ± 10 %. Однако в соответствии с SLA, предоставляемым дата-центрами IXcellerate, такой разброс значений недопустим: мы должны предоставлять клиентам "чистое" напряжение 220 В, ни вольтом больше и ни вольтом меньше.

Обычно существует два типа аварийных предупреждений - предупреждения об отклонении и предупреждения о критическом отклонении. Первая ситуация рассматривается как предаварийная, а вторая - как аварийная. Например, если температура в машинном отделении упадет на два градуса с 23℃ до 21℃, это будет идентифицировано как предупреждение (предаварийная ситуация), а если температура упадет ниже 20℃, это вызовет аварийный сигнал, требующий немедленного устранения.

Исполнительная документация

Помимо технологической схемы, необходимо также разработать регламенты и инструкции для персонала. В этих документах фиксируется план действий в случае отклонений от нормы. Дежурный инженер должен четко знать, что делать в случае возникновения предаварийной или аварийной ситуации, чтобы локализовать неисправности и предотвратить коллапс.

Обязательный компонент системы мониторинга ЦОД - аварийные карты, составляемые инженерами-специалистами. Каждая карта заполняется отдельным специалистом, так как план действий в случае пожара отличается от плана действий в случае протечки кондиционера.

Объединив технологии и правила, мы получаем высокоэффективный механизм управления инженерной инфраструктурой ЦОД.

Что отслеживает система мониторинга

Мониторинг в центре обработки данных охватывает критически важные инженерные системы:

  • источник питания (контролируется напряжение ИБП, сила и частота тока, уровень топлива в баке ДГУ);
  • охлаждение (комнатная температура, давление хладагента, отсутствие утечек);
  • вентиляция и кондиционирование (температура воздуха на входе и выходе, скорость вращения вентилятора);
  • пожарная сигнализация (огонь, уровень дыма).

Аварии в дата-центре могут происходить не только из-за сбоев оборудования, но и по вине людей, поэтому отдельной функцией системы мониторинга является обеспечение безопасности. Основная задача системы - предотвратить несанкционированный доступ в помещение ЦОДа. Для этого внутри объекта устанавливаются охранные извещатели (датчики). Система показывает, через какую дверь вошел человек, фиксирует номер его идентификационной карты, отслеживает маршрут. В случае несанкционированного открытия двери или окна, разбития стекла или движения внутри помещения срабатывает система тревожной сигнализации. Извещение поступает на пульт охраны, дежурный по видеокамерам проводит осмотр и, при необходимости, выезжает к источнику тревоги, возможно, предварительно заблокировав двери.

Принципы работы системы мониторинга

Система следит за работой контролируемого оборудования и фиксирует возникающие ошибки. Количество контролируемых параметров может исчисляться десятками и даже сотнями. Например, в первой очереди дата-центра MOS5 в кампусе IXcellerate South установлено 16 ИБП, и для каждого из них отслеживается несколько десятков параметров.

Оборудование. Для сбора первичной информации используются датчики, которые передают полученные данные на контроллеры. Далее вся информация накапливается в системе и через единый интерфейс выводится на экраны в центре мониторинга ЦОД. Дежурные инженеры круглосуточно следят за показателями.

Детализация данных. Все важные параметры отражаются на мониторах. Специалист может видеть всю картину целиком и при необходимости открывать отдельные вкладки, чтобы углубиться в детали. Например, контролируя уровень напряжения в системе, он может просмотреть параметры по каждому входу отдельно.

Частота обновления. Частота "опроса" контролируемого оборудования может быть настроена. Будет ли система снимать показания раз в секунду или раз в минуту, зависит от степени критичности того или иного параметра. Например, в дата-центрах IXcellerate показания температуры и напряжения отслеживаются не реже одного раза в секунду. Чем чаще будут поступать данные, тем лучше, ведь скачок напряжения или температуры может произойти внезапно, и его ни в коем случае нельзя пропустить.

Визуализация. Для удобства отслеживания и наглядности все контролируемые системы и их параметры визуализируются в виде схем и карт. Каждый дата-центр может настроить визуализацию в соответствии со своими потребностями и предпочтениями. В процессе разработки вида экранов специалисты анализируют, насколько то или иное визуальное представление информации приятно глазу, и подбирают подходящие и интуитивно понятные варианты. Например, автоматическая пожарная сигнализация не только оповещает о задымлении, но и показывает местоположение датчика, чтобы дежурный сразу увидел на плане, где возник пожар.

Оповещения. При возникновении аварийных ситуаций система мониторинга выводит данные на экран (в заданном визуальном формате) и отправляет уведомления всем ответственным лицам с разбивкой аварийной ситуации (в формате SMS и электронной почты).

Сбор статистики. Все данные, поступающие в систему, агрегируются, архивируются и хранятся на отдельном сервере не менее одного года. Это позволяет проанализировать, как вела себя каждая система в определенный период времени - как заряжались аккумуляторы, какую температуру поддерживал кондиционер, как часто происходили сбои и т. д. На основе этих данных можно скорректировать работу того или иного прибора.

Резервирование. Для сбора и хранения данных, поступающих в систему мониторинга, используется отдельное серверное и сетевое оборудование. Для организации резервирования потребуется как минимум два сервера, чтобы в случае выхода из строя одного из них мониторинг продолжал работать на втором. Сами мониторы в центре мониторинга также должны быть подключены к источникам бесперебойного питания с резервированием.

Центр обработки данных без системы мониторинга не может обеспечить тот уровень доступности оборудования и надежности услуг, который требуется современному бизнесу. Кроме того, постоянный мониторинг инфраструктуры позволяет повысить ее безопасность и срок службы за счет достижения оптимальных рабочих параметров и своевременного реагирования на любые сбои.

ВНИМАНИЕ!

Ваше имущество находится под защитой! 👍

Это напоминание для владельцев хорошей системы видеонаблюдения!