сбой

В один из обычных четвергов наша основная база данных начала вести себя странно. Запросы, которые обычно выполнялись за миллисекунды, вдруг стали тормозить на секунды. Сначала мы подумали на сеть, потом на нагрузку, но цифры в мониторинге были в норме. CPU — 30%, память — достаточно свободна, сеть не перегружена. Но что-то явно не так. 

Тогда я вспомнил совет старого администратора: "Когда все показывает нормально, но система работает плохо — смотри на диски". Мы проверили iostat — вроде бы нормально. Но когда я начал смотреть глубже, в детали операций ввода-вывода, картина изменилась. Среднее время ответа диска было 15мс, но 10% запросов выполнялись больше 200мс. Это как если бы в офисе один сотрудник всегда опаздывал на встречи, но статистика общего времени работы показывала норму.