Разреженные автоэнкодеры как легко интегрируемые межсетевые экраны для обнаружения состязательных атак в VLM

Аннотация

Модели зрения-языка (VLM) быстро прогрессируют и всё чаще внедряются в реальные приложения, особенно с развитием агентных систем. Однако их безопасности уделяется относительно мало внимания. Даже самые современные проприетарные VLM и модели с открытыми весами остаются крайне уязвимыми к состязательным атакам, что подвергает downstream-приложения значительным рискам. В данной работе мы предлагаем новую лёгкую систему обнаружения состязательных атак на основе разреженных автоэнкодеров (SAE), названную SAEgis. Вставляя модуль SAE в предварительно обученную VLM и обучая его на стандартных задачах реконструкции, мы обнаруживаем, что изученные разреженные латентные признаки естественным образом улавливают сигналы, связанные с атакой. Эти признаки позволяют надёжно классифицировать, было ли входное изображение подвергнуто состязательному возмущению, даже для ранее не встречавшихся образцов. Обширные эксперименты показывают, что SAEgis достигает высоких результатов в условиях внутридоменной, междоменной и межатаковой настройки, причём особенно значительные улучшения наблюдаются в междоменном обобщении по сравнению с существующими базовыми методами. Кроме того, объединение сигналов с нескольких слоёв дополнительно повышает устойчивость и стабильность. Насколько нам известно, это первая работа, в которой SAE исследуется в качестве подключаемого механизма для обнаружения состязательных атак в VLM. Наш метод не требует дополнительного состязательного обучения, вносит минимальные накладные расходы и предлагает практический подход к повышению безопасности реальных систем VLM.

English

Vision-language models (VLMs) have advanced rapidly and are increasingly deployed in real-world applications, especially with the rise of agent-based systems. However, their safety has received relatively limited attention. Even the latest proprietary and open-weight VLMs remain highly vulnerable to adversarial attacks, leaving downstream applications exposed to significant risks. In this work, we propose a novel and lightweight adversarial attack detection framework based on sparse autoencoders (SAEs), termed SAEgis. By inserting an SAE module into a pretrained VLM and training it with standard reconstruction objectives, we find that the learned sparse latent features naturally capture attack-relevant signals. These features enable reliable classification of whether an input image has been adversarially perturbed, even for previously unseen samples. Extensive experiments show that SAEgis achieves strong performance across in-domain, cross-domain, and cross-attack settings, with particularly large improvements in cross-domain generalization compared to existing baselines. In addition, combining signals from multiple layers further improves robustness and stability. To the best of our knowledge, this is the first work to explore SAE as a plug-and-play mechanism for adversarial attack detection in VLMs. Our method requires no additional adversarial training, introduces minimal overhead, and provides a practical approach for improving the safety of real-world VLM systems.

Разреженные автоэнкодеры как легко интегрируемые межсетевые экраны для обнаружения состязательных атак в VLM

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

Аннотация

Support