May 17th, 2018

IT-ужастик

 Есть у меня на работе NFS-кластер из двух нод. Работает это все под unison и keepalived. Проходя сегодня мимо плазмы с экраном мониторинга, я обратил внимание, что по кластеру вылезли два алерта - кончается место. На одной ноде занято 77% диска, на второй... 82!

 Экстренное расследование показало, что на первой ноде глюкнул unison и синхронизация не работала 6 (шесть) дней. Попутно выяснилось, что состояние синхронизации мониторилось у нас чуть менее, чем никак. А это, на минуточку, критически важные данные. К счастью, за это время keepalived не переключал активный IP между нодами и данные не пострадали... В общем, я сегодня прикручивал мониторинг синхронизации и поминал незлобливым тихим словом своего коллегу-отпускника, автора этого безобразия, который сейчас бороздит на яхте просторы Атлантического океана.