Во вторник утром Cloudflare поставила на колени большую часть Интернета, вызвав массовые перебои в обслуживании X Илона Маска, а также широкого спектра веб-сайтов, приложений и даже видеоигр. Теперь компания признает, что сбой произошел полностью по ее собственной вине из-за ошибки программирования.
Вчера Breitbart News сообщила, что Америка проснулась и увидела Интернет, полный сообщений об ошибках и неработающих веб-сайтов. Повсеместные сбои в работе были быстро связаны с Cloudflare, который многие компании используют для обеспечения «щита» между своими серверами и Интернетом в целом.
В недавно опубликованном сообщении в блоге Cloudflare объяснила, что перебои в обслуживании были вызваны внутренними проблемами программирования, категорически заявив, что «проблема не была вызвана, прямо или косвенно, кибератакой или какой-либо вредоносной деятельностью».
По данным компании, сбой был вызван внутренним изменением прав доступа к базе данных, используемых ее системой управления ботами. Это изменение непреднамеренно привело к тому, что база данных сгенерировала файл «конфигурации функций», используемый в ее моделях машинного обучения, размер которого вдвое превышал ожидаемый. Когда этот файл конфигурации слишком большого размера распространился по глобальной сети Cloudflare, он превысил жестко заданный в программном обеспечении предел размера, что привело к полному сбою модуля управления ботами. Это привело к массовым сбоям основного прокси-сервера трафика Cloudflare, отвечающего за маршрутизацию всего клиентского трафика.
Проблема усугублялась тем, что сбои проявлялись непоследовательно, поскольку при изменении разрешений база данных обновлялась лишь частично. Это привело к тому, что файл слишком большого размера создавался периодически каждые пять минут при выполнении запросов к базе данных в обновленных и необновленных частях кластера базы данных. Первоначально эти неудачи заставили инженеров Cloudflare заподозрить распределенную атаку типа «отказ в обслуживании» (DDoS), осуществленную злоумышленниками. Эта теория была полностью опровергнута по мере того, как они копали глубже.
Хотя сбой серверов Cloudflare затронул многих клиентов, у еще большего числа клиентов возникли проблемы, когда сторонние сервисы, интегрированные с Cloudflare, такие как системы входа в систему клиентов с использованием их Turnstile CAPTCHA, также столкнулись со сбоями.
Инженеры Cloudflare остановили сбой примерно к 10:00 утра по восточному времени, заблокировав создание файла слишком большого размера и вручную развернув заведомо исправную версию в своей сети. Хотя компания заявила, что после этого услуги были восстановлены, на многих веб-сайтах возникли проблемы в течение многих часов после исправления. Обычно считается, что отключение длилось шесть часов, причем, по оценкам одного отраслевого эксперта, оно обходится клиентам Cloudflare в 15 миллиардов долларов в час.
После инцидента генеральный директор Cloudflare Мэтью Принс опубликовал извинения, назвав сбой неприемлемым и глубоко болезненным для всей команды, учитывая решающую роль Cloudflare в интернет-экосистеме. Сейчас компания проводит тщательную внутреннюю проверку, чтобы выявить пробелы в процессах, защитить системы от будущих сбоев конфигурации, улучшить отладку и наблюдаемость, а также внедрить более детальные аварийные переключатели функций.
Подробную информацию можно найти в блоге Cloudflare здесь.
Лукас Нолан — репортер Breitbart News, освещающий вопросы свободы слова и онлайн-цензуры.