
Объяснение аномалий с использованием методов Isolation Forest и SHAP
Аномалии через уши: как Isolation Forest и SHAP могут стать твоими проводниками в мире данных
В мире науки о данных, ловля аномалий – это, можно сказать, как охота на привидений: непростая задача, но если повезет, то можно наткнуться на нечто удивительное. Понимаете, это не просто набор цифр и графиков – это настоящие истории, которые могут рассказать о мошенничестве, проблемах со здоровьем или даже неполадках в часах на заводе. Одним из лучших алгоритмов для обнаружения этих призрачных аномалий является Isolation Forest. Однако, важно не только поймать это привидение, но и понять, почему именно это привидение выглядит странно. И тут на помощь приходит SHAP – наш верный друг, помогающий объяснить, почему одна цифра выделилась на фоне других.
Isolation Forest: не просто лес, а целая экосистема
Isolation Forest, или как его еще могут назвать «Огромный Лес из Изоляций», представляет собой «лес» из деревьев изоляции, разработанный в 2009 году. Если просто, то этот алгоритм выглядит как группа подписчиков, у которых есть свой секрет: они прячутся от глаз, оставаясь слегка загадочными. Исходя из произвольных порогов, метод разбивает данные до тех пор, пока каждая точка не окажется изолированной. Если путь к этой изоляции оказался коротким, значит, данные действительно аномальны. Как в хорошем детективе: чем быстрее улики привели к подозреваемому, тем больше шансов, что он действительно что-то учудил.
Зачем нам объяснения?
Isolation Forest – это как ловкий маг, способный выявить аномалии в больших объемах данных. Но вот беда, даже самый лучший маг может остаться в тени, если его трюки не объясняются. Как мы можем принимать важные решения, если не знаем, почему именно этот логин или этот пациент оказался на прицеле? Важно докопаться до сути и понять, что стоит за этой аномалией, чтобы действовать на опережение.
SHAP на помощь!
Тут на сцену выходит SHAP – это как гений, который вылезает из лампы, чтобы осветить нам дорогу к пониманию. SHAP (SHapley Additive exPlanations) — мощный инструмент, который был разработан Лундбергом и Ли в 2017 году, чтобы помочь нам понять, что творится в головах наших машин. Он помогает выделить вклад каждой особенности в предсказание, так что мы можем разобрать на детали, почему тот или иной показатель стал аномальным.
Общая и локальная интерпретация с SHAP
SHAP предлагает нам два изящных способа погрузиться в мир интерпретации:
Глобальная интерпретация
Это как общий анализ погоды в нашем регионе. Мы изучаем, какие особенности имеют наибольшее влияние на аномалии в целом. Тут можно понять, какие функции чаще всего «гудят» на уровне всего дата-сета – это дает нам представление о важных параметрах.
Локальная интерпретация
Здесь мы погружаемся в отдельные случаи. Это важно, когда нужно разобраться с конкретным "необычным" персонажем, и определить, какой аспект повлиял на его классификацию как аномалии. SHAP-плоты, такие как force plots или bar plots, могут стать нашими путеводителями в этом мире и показывают, какие характеристики сыграли важную роль.
Как SHAP работает вместе с Isolation Forest
Чтобы совместить Isolation Forest и SHAP, следуйте этим простым шагам:
-
Запустите Isolation Forest: Примените алгоритм Isolation Forest к вашему набору данных. Он обнародует аномальные оценки для каждой точки.
-
Интерпретируйте с SHAP: Используйте библиотеку SHAP, чтобы понять эти аномальные оценки. SHAP даст как глобальные, так и локальные объяснения.
-
Анализируйте SHAP-плоты: Посмотрите на SHAP force plots или bar plots, чтобы определить черты с высокими абсолютными значениями SHAP. Эти черты окажут наибольшее влияние на предсказание. Направление значения SHAP покажет, каким образом функция повлияла на окончательный результат.
Практический пример: Поймать аномалии в сеансах входа
Рассмотрим реальный пример, где мы ловим аномалии в сеансах входа Windows с помощью Isolation Forest и SHAP. Здесь наш алгоритм выделяет сеансы входа, которые заметно отличаются от обычных, основываясь на множестве факторов: методы входа, методы аутентификации, IP-адреса источника и геолокация. Затем мы можем использовать SHAP, чтобы объяснить, какие из этих факторов сыграли роль в классификации. Например, если у нас оказывается большое количество неудачных попыток входа, это может иметь высокий положительный SHAP-значение, сигнализируя, что это решающий фактор в обозначении сеанса как аномального.
Пара слов в заключение
В конце концов, понимание аномалий – это не просто их обнаружение; это прежде всего осознание, почему они оказались аномалиями. Совмещение Isolation Forest и SHAP представляет собой мощный инструмент для обнаружения и объяснения аномалий. С помощью SHAP, ученые-данные могут получить ценные сведения о характеристиках, которые движут выделением аномалий, делая свои модели более понятными и действующими.
Хотите быть в курсе последних новостей о нейросетях и автоматизации? Подпишитесь на наш Telegram-канал: @neuroko