Хотя автоматизация и машинное обучения используются в ИБ почти 20 лет, эксперименты в этой области не останавливаются ни на минуту. Защитникам нужно бороться с более сложными киберугрозами и большим числом атак без существенного роста бюджета и численности ИБ-отделов. ИИ помогает значительно разгрузить команду аналитиков и ускорить многие фазы работы с инцидентом — от обнаружения до реагирования. Но ряд очевидных, казалось бы, сценариев применения машинного обучения оказываются недостаточно эффективными.
Автоматическое обнаружение киберугроз с помощью ИИ
Предельно упрощая эту большую тему, рассмотрим два основных и давно протестированных способа применения машинного обучения:
Поиск атак. Обучив ИИ на примерах фишинговых писем, вредоносных файлов и опасного поведения приложений, можно добиться приемлемого уровня обнаружения похожих угроз. Основной подводный камень — эта сфера слишком динамична, злоумышленники постоянно придумывают новые способы маскировки, поэтому модель нужно очень часто обучать заново, чтобы поддерживать ее эффективность. При этом нужен размеченный набор данных, то есть большой набор свежих примеров доказанного вредоносного поведения. Обученный таким образом алгоритм не эффективен против принципиально новых атак, которые он «не видел» раньше. Кроме того, есть определенные сложности при обнаружении атак, целиком опирающихся на легитимные ИТ-инструменты (LOTL). Несмотря на ограничения, этот способ применяется большинством производителей ИБ-решений, например, он весьма эффективен для анализа e-mail, поиска фишинга, обнаружения определенных классов вредоносного программного обеспечения. Однако ни полной автоматизации, ни 100%-ной надежности он не обещает.
Поиск аномалий. Обучив ИИ на «нормальной» деятельности серверов и рабочих станций, можно выявлять отклонения от этой нормы, когда, например, бухгалтер внезапно начинает выполнять административные действия с почтовым сервером. Подводные камни — этот способ требует собирать и хранить очень много телеметрии, переобучать ИИ на регулярной основе, чтобы он поспевал за изменениями в ИТ-инфраструктуре. Но все равно ложных срабатываний будет немало, да и обнаружение атак не гарантировано. Поиск аномалий должен быть адаптирован к конкретной организации, поэтому применение такого инструмента требует от сотрудников высокой квалификации как в сфере кибербезопасности, так и в анализе данных и машинном обучении. И подобные «золотые» кадры должны сопровождать систему на ежедневной основе.
Подводя промежуточный философский итог, можно сказать, что ИИ прекрасно подходит для решения рутинных задач, в которых предметная область и характеристики объектов редко и медленно меняются: написание связных текстов, распознавание пород собак и тому подобное. Когда за изучаемыми данными стоит активно сопротивляющийся этому изучению человеческий ум, статично настроенный ИИ постепенно становится менее эффективен. Аналитики дообучают и настраивают ИИ вместо того, чтобы писать правила детектирования киберугроз, — фронт работ меняется, но, вопреки распространенному заблуждению, экономии человеческих сил не происходит. При этом стремление повысить уровень ИИ-детектирования угроз (True Positive, TP) неизбежно приводит к увеличению и числа ложноположительных срабатываний (False Positive, FP), а это напрямую увеличивает нагрузку на людей. Если же попытаться свести FP почти к нулю, то понижается и TP, то есть растет риск пропустить кибератаку.
В результате ИИ занимает свое место в ансамбле инструментов детектирования, но не способен стать «серебряной пулей», то есть окончательно решить проблемы детектирования в ИБ или работать целиком автономно.
ИИ-напарник аналитика SOC
ИИ нельзя целиком доверить поиск киберугроз, но он может снизить нагрузку на человека, самостоятельно разбирая простые предупреждения SIEM и подсказывая аналитикам в остальных случаях:
Фильтрация ложных срабатываний. Обучившись на предупреждениях из SIEM-системы и вердиктах команды аналитиков, ИИ способен достаточно надежно фильтровать ложноположительные срабатывания (FP) — в практике сервиса Kaspersky MDR это снижает нагрузку на команду SOC примерно на 25%. Подробности реализации «автоаналитика» мы опишем в отдельном посте.
Приоритизация предупреждений. Тот же механизм машинного обучения может не только фильтровать ложные срабатывания, но и оценивать вероятность того, что обнаружен признак серьезной вредоносной активности. Такие серьезные предупреждения передаются для приоритетного анализа экспертам. Альтернативно «вероятность угрозы» может быть просто визуальным индикатором, помогающим аналитику обрабатывать наиболее важные оповещения с наибольшим приоритетом.
Поиск аномалий. ИИ может быстро предупреждать об аномалиях в защищаемой инфраструктуре, отслеживая такие явления, как всплеск количества предупреждений, резкое увеличение или уменьшение потока телеметрии с конкретных сенсоров или изменение ее структуры.
Поиск подозрительного поведения. Хотя сложности поиска произвольных аномалий в сети значительны, некоторые частные сценарии хорошо автоматизируются и машинное обучение работает в них эффективней статичных правил. Примеры: поиск несанкционированного использования учетных записей из необычных подсетей, детектирование аномального обращения к файловым серверам и их сканирования, поиск атак с использованием чужих билетов TGS (атаки Pass-the-Ticket).
Большие языковые модели в ИБ
Наиболее модная тема ИИ-индустрии, большие языковые модели (LLM), тоже многократно опробована ИБ-компаниями. Оставляя полностью за скобками такие темы, как написание фишинговых писем и ВПО при помощи GPT, отметим многочисленные интересные эксперименты по привлечению LLM к рутинным работам:
генерация расширенных описаний киберугроз;
подготовка черновиков отчетов по расследованию инцидентов;
нечеткий поиск в архивных данных и логах через чат;
генерация тестов, тест-кейсов, кода для фаззинга;
первичный анализ декомпилированного исходного кода при реверс-инжиниринге;
снятие обфускации и объяснение длинных командных строк (такая технология уже используется нашим сервисом MDR);
генерация подсказок и рекомендаций при написании детектирующих правил и скриптов.
Большинство перечисленных по ссылке работ и статей являются нишевыми внедрениями или научными экспериментами, поэтому они не дают измеримой оценки эффективности. Более того, имеющиеся исследования эффективности квалифицированных работников, которым в помощь выданы LLM, показывают противоречивые результаты. Поэтому внедрение подобных решений должно проводиться медленно и поэтапно, с предварительной оценкой потенциала экономии, детальной оценкой вложенного времени и качества результата.