10 февраля, 2012
Фичи невидимого фронта-4
Всем привет!
И снова о спаме.
В зависимости от «сезона» и «звёзд» его доля колеблется от 70 до 90% вообще всей почтовой корреспонденции.
Впечатляет, да? На самом деле, в глобальном Интернет-трафике это не так уж и много – на email приходится всего что-то около 1%. С другой стороны, это ни разу не значит, что на спам можно забить. Здесь хорошо написано о месте спама в киберкриминальной экосистеме. Так что борьба с этим злом есть часть масштабной войны, которую мы ведём с кибернегодяями. Проиграем этот фронт – обвалится всё остальное.
В общем, антиспам технологии мы любим и всячески развиваем. Но тут есть один нюанс по сравнению с антималварными технологиями. А точнее – у них разные критерии оценки качества защиты. С малварой всё просто: надо показать максимальный детект. А со спамом на первое место выходит что? Правильно! Чтобы не было ложных срабатываний! Вполне резонно: уж лучше потратить пару секунд на удаление нераспознанного спама, чем пропустить какое-нибудь важное деловое письмо. Так что в некотором смысле защита от этой гадости более сложная задача. Тут буквально приходится гнаться за двумя зайцами. И очень-очень нам в этом помогают … облачные технологии!
Как уже сказано, «облаками» мы «балуемся» давно и успешно. Но есть один любопытный факт, который незаслуженно и возмутительно малоизвестен. В нашей облачной системе KSN (видео, подробности) с 2006 г. есть и нефиговое такое антиспамовое облако. А началось оно с системы быстрого реагирования UDS (Urgent Detection System). И совпадение с похожей антималварной технологией тут неслучайно — обе работают по похожему принципу.
Допустим, на компьютер приходит e-mail. На него сразу набрасываются разные антиспамовые технологии (локальные и облачные), которые присваивают письму свои веса и выдают вердикты. На их основании система и принимает решение казнить/миловать.
В случае с UDS это происходит так: система снимает с текста письма микро-сигнатуру и отправляет её в облако для проверки по специальной базе данных. Раньше мы снимали 16-байтные хэши, а в 2011 г. запустили UDS2 — 4-байтные фаззи-хэши – они более эффективны против «замусоривания» текста и как результат лучше фильтруют спам. И что важно — создание хэшей не грузит аналитика – система генерит их автоматически по отловленным образцам спама.
Вообще, у антиспама два главных «тормоза»: скорость разработки обновлений (ага, аналитик не резиновый и не железный) и их доставки до пользователя. Поэтому и большинство разработок сейчас «заточены» на создание и тренировку разных специализированных технологий (типа Мёбиуса), и максимальное замещение человеческого фактора. И вот тут у UDS2 как раз есть большие перспективы.
Дело в том, что в UDS2 есть такая штука как кластеризатор. Первое поколение UDS на запросы пользователей просто отвечало есть данная сигнатура в базе или нет. А UDS2 автоматически группирует сигнатуры в кластеры по их похожести и ещё вычисляет для них спам-репутацию! А такая фича позволяет вести автообработку спама … точно! – прямо в облаке!
Кластеризацией и автоматической обработкой спама занимается технология Content Reputation. В 2012г. на её базе планируем выпустить следующие фичи. Во-первых, Рескан – опционально пользователь может включить небольшую задержку (20-30 мин) в проверке только подозрительных писем. На практике таких писем случается не больше 1% от общего почтового трафика, так что объём карантина даже у крупной организации не превысит 100Мб. А за это время мы уже точно разберёмся спам это или не спам и добавим сигнатуру. И во-вторых, Авто-бан – автоматическая блокировка писем (разумеется, с обязательной последующей проверкой аналитиком и возможностью мгновенного отката), которые попали в кластеры с высокой спам-репутацией. Тут важно, что система «тащит» человека, а не человек систему, что позитивно сказывается на скорости и качестве работы :)
Обе фичи сейчас проходят внутренние испытания и показывают очень вдохновляющие результаты. Например, Рескан сокращает количество нераспознанного спама до 10 раз (да!) и поднимает общий уровень детекта с 99,50% до 99,95% (да!!!). Это реально один из лучших показателей в индустрии – при том, что уровень ложных срабатываний остался неизменным, т.е. 0%.
Планов у нас тут тоже громадьё. Прежде всего, хотим сделать многомерный кластеризатор – т.е. группировать и считать репутацию не только для фаззи-хэшей, но и для всяких других атрибутов. А атрибутов этих у нас в KSN выше крыши. Больше рассказать пока не могу — ноу-хау и всё такое.
Вот мне интересно – мы в этом году войдём в элитный клуб 100/0 (детект/ложные срабатывания) в тестах?