Бесконтрольное обучение поможет обнаружить состязательные атаки

Вт 31 Август 2021 13:23

По мере того, как модели машинного обучения все чаще становятся важным компонентом критических приложений, растет и риск появления новых угроз кибербезопасности, таких как состязательные атаки (adversarial attacks), подразумевающие обман нейросети с тем, чтобы она выдала неверный результат.

Команда специалистов из Университета Карнеги-Меллона и Корейского института передовых технологий (KAIST) разработала новую технику, предполагающую использование объяснительных методов для определения данных, подвергшихся состязательным атакам.

Подобные алгоритмы обычно имеют параметр, ограничивающий объем допустимых изменений для того, чтобы модификации остались незаметными. Существует немало различных способов защиты моделей машинного обучения от состязательных атак, но наиболее популярные методы требуют значительных вычислительных затрат и точности.

В ходе исследования ученые обнаружили связь между состязательными атаками и объяснительностью – еще одним камнем преткновения для моделей машинного обучения. Во многих моделях, особенно в глубоких нейронных сетях, решения сложно отследить из-за большого числа параметров, что усложняет реализацию алгоритмов в приложениях, где требуется объяснение алгоритмических решений.

Новый метод базируется на том, что при «прогонке» модифицированного изображения через объяснительные алгоритмы, будут выдаваться аномальные результаты. Техника позволяет выявлять состязательные атаки на основе их объяснительных карт.

По словам специалистов, защита строится в несколько этапов: на первом «сеть-инспектор» использует объяснительные техники для построения карты визуального внимания (карта салиентности) для образцов данных, используемых для тренировки модели машинного обучения. Далее эти карты применяются для обучения «реконструкторской сети» для воспроизведения каждого решения, принятого моделью. Поскольку конструкторские сети обучаются на безобидных образцах, при работе с вредоносными образцами они выдают необычные результаты, что позволяет «инспектору» обнаруживать и помечать модифицированные изображения.

Специалисты протестировали новый метод на MNIST – базе данных образцов рукописного написания цифр, часто используемой для тестирования различных техник машинного обучения. Согласно результатам, метод бесконтрольного обучения смог справиться с обнаружением состязательных атак наравне или лучше по сравнению с популярными техниками. В будущем исследователи планируют испытать новый метод на более сложных базах данных, таких как CIFAR10/100 и ImageNet.

Статья уведена с www.securitylab.ru.

NetLan.ru жив уже 15 лет 312 дней 16 часов 50 минут 56 секунд
СМК NetLan (Nettlesome Landloper) — некоммерческий интернет-ресурс.
Весь данный интернет-ресурс и всё созданное или размещённое на нём используется в личных целях.