Autoencodeurs parcimonieux en tant que pare-feu plug-and-play pour la détection d'attaques adverses dans les VLMs

Résumé

Les modèles vision-langage (VLM) ont progressé rapidement et sont de plus en plus déployés dans des applications réelles, en particulier avec l'essor des systèmes basés sur des agents. Cependant, leur sécurité n'a reçu qu'une attention relativement limitée. Même les derniers VLM propriétaires et open-weight restent très vulnérables aux attaques adversariales, exposant les applications en aval à des risques significatifs. Dans ce travail, nous proposons un nouveau cadre de détection d'attaques adversariales, léger et basé sur des autoencodeurs parcimonieux (SAE), nommé SAEgis. En insérant un module SAE dans un VLM pré-entraîné et en l'entraînant avec des objectifs de reconstruction standards, nous observons que les caractéristiques latentes parcimonieuses apprises capturent naturellement les signaux liés aux attaques. Ces caractéristiques permettent une classification fiable de la présence d'une perturbation adverse dans une image d'entrée, même pour des échantillons jamais vus auparavant. Des expériences approfondies montrent que SAEgis atteint de solides performances dans des contextes intra-domaine, inter-domaines et inter-attaques, avec des améliorations particulièrement importantes en matière de généralisation inter-domaines par rapport aux références existantes. De plus, la combinaison de signaux provenant de plusieurs couches améliore encore la robustesse et la stabilité. À notre connaissance, il s'agit du premier travail à explorer le SAE comme mécanisme plug-and-play pour la détection d'attaques adversariales dans les VLM. Notre méthode ne nécessite aucun entraînement adverse supplémentaire, introduit une surcharge minimale et offre une approche pratique pour améliorer la sécurité des systèmes VLM réels.

English

Vision-language models (VLMs) have advanced rapidly and are increasingly deployed in real-world applications, especially with the rise of agent-based systems. However, their safety has received relatively limited attention. Even the latest proprietary and open-weight VLMs remain highly vulnerable to adversarial attacks, leaving downstream applications exposed to significant risks. In this work, we propose a novel and lightweight adversarial attack detection framework based on sparse autoencoders (SAEs), termed SAEgis. By inserting an SAE module into a pretrained VLM and training it with standard reconstruction objectives, we find that the learned sparse latent features naturally capture attack-relevant signals. These features enable reliable classification of whether an input image has been adversarially perturbed, even for previously unseen samples. Extensive experiments show that SAEgis achieves strong performance across in-domain, cross-domain, and cross-attack settings, with particularly large improvements in cross-domain generalization compared to existing baselines. In addition, combining signals from multiple layers further improves robustness and stability. To the best of our knowledge, this is the first work to explore SAE as a plug-and-play mechanism for adversarial attack detection in VLMs. Our method requires no additional adversarial training, introduces minimal overhead, and provides a practical approach for improving the safety of real-world VLM systems.

Autoencodeurs parcimonieux en tant que pare-feu plug-and-play pour la détection d'attaques adverses dans les VLMs

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

Résumé

Support