Логотипbitrix-code
Безопасность

Disaster Recovery для Битрикс24

Елена Зарубина, DevOps11 мин

DR-план — документ, который никто не хочет использовать, но без которого нельзя жить в enterprise. Разбираем для Битрикс24.

Что такое катастрофа

Полная недоступность основного ЦОД: пожар, наводнение, длительный отказ сети, шифрование ransomware. Локальные сбои (один сервер) — обычные инциденты.

Резервный ЦОД

Географически удалённый (хотя бы 100 км). Репликация БД асинхронная, файлы — rsync с определённой частотой.

Сценарий переключения

  1. Обнаружение катастрофы (мониторинг + человек)
  2. Решение о переключении (руководитель)
  3. Переключение DNS на резервный ЦОД
  4. Переключение БД на резервный master
  5. Smoke-тесты критичного функционала
  6. Уведомление пользователей

RTO 15 минут — достижимо

Автоматизация через Terraform + Ansible. DNS TTL 60 сек. Асинхронная репликация с лагом до минуты.

Тренировки

Минимум раз в квартал — учебное переключение. Реальное переключение без тренировок — гарантированная катастрофа в катастрофе.

Документация

Runbook — пошаговая инструкция переключения. Обновляется после каждой тренировки. В руке должен быть хоть в полночь.