Spaarse auto-encoders als plug-and-play firewalls voor detectie van adversariële aanvallen in VLM's
Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs
May 8, 2026
Auteurs: Hao Wang, Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh, Daisuke Kawahara
cs.AI
Samenvatting
Visie-taalmodelen (VLM's) hebben zich snel ontwikkeld en worden steeds vaker ingezet in praktijktoepassingen, vooral met de opkomst van agent-gebaseerde systemen. Hun veiligheid heeft echter relatief weinig aandacht gekregen. Zelfs de nieuwste propriëtaire en open-weight VLM's blijven zeer kwetsbaar voor adversariële aanvallen, waardoor downstream-toepassingen worden blootgesteld aan aanzienlijke risico's. In dit werk stellen we een nieuw en lichtgewicht detectiekader voor adversariële aanvallen voor, gebaseerd op sparse autoencoders (SAE's), genaamd SAEgis. Door een SAE-module in een voorgetraind VLM in te voegen en deze te trainen met standaard reconstructiedoelstellingen, ontdekken we dat de geleerde sparse latente kenmerken van nature aanvalsrelevante signalen vastleggen. Deze kenmerken maken een betrouwbare classificatie mogelijk van of een invoerbeeld adversariaal is verstoord, zelfs voor voorheen ongeziene samples. Uitgebreide experimenten tonen aan dat SAEgis sterke prestaties levert in in-domein-, kruisdomein- en kruisaanvalsinstellingen, met bijzonder grote verbeteringen in kruisdomeingeneralisatie vergeleken met bestaande basislijnen. Daarnaast verbetert het combineren van signalen uit meerdere lagen de robuustheid en stabiliteit verder. Voor zover wij weten, is dit het eerste werk dat SAE onderzoekt als een plug-and-play-mechanisme voor detectie van adversariële aanvallen in VLM's. Onze methode vereist geen extra adversariële training, introduceert minimale overhead en biedt een praktische benadering voor het verbeteren van de veiligheid van real-world VLM-systemen.
English
Vision-language models (VLMs) have advanced rapidly and are increasingly deployed in real-world applications, especially with the rise of agent-based systems. However, their safety has received relatively limited attention. Even the latest proprietary and open-weight VLMs remain highly vulnerable to adversarial attacks, leaving downstream applications exposed to significant risks. In this work, we propose a novel and lightweight adversarial attack detection framework based on sparse autoencoders (SAEs), termed SAEgis. By inserting an SAE module into a pretrained VLM and training it with standard reconstruction objectives, we find that the learned sparse latent features naturally capture attack-relevant signals. These features enable reliable classification of whether an input image has been adversarially perturbed, even for previously unseen samples. Extensive experiments show that SAEgis achieves strong performance across in-domain, cross-domain, and cross-attack settings, with particularly large improvements in cross-domain generalization compared to existing baselines. In addition, combining signals from multiple layers further improves robustness and stability. To the best of our knowledge, this is the first work to explore SAE as a plug-and-play mechanism for adversarial attack detection in VLMs. Our method requires no additional adversarial training, introduces minimal overhead, and provides a practical approach for improving the safety of real-world VLM systems.