Sparse Autoencoder als Plug-and-Play-Firewalls zur Erkennung von Adversarial-Angriffen in VLMs

Zusammenfassung

Vision-Language-Modelle (VLMs) haben sich rasant weiterentwickelt und werden zunehmend in realen Anwendungen eingesetzt, insbesondere mit dem Aufkommen agentenbasierter Systeme. Ihre Sicherheit hat jedoch vergleichsweise wenig Beachtung gefunden. Selbst die neuesten proprietären und quelloffenen VLMs sind nach wie vor hochgradig anfällig für adversarial Angriffe, sodass nachgelagerte Anwendungen erheblichen Risiken ausgesetzt sind. In dieser Arbeit schlagen wir ein neuartiges und leichtgewichtiges Framework zur Erkennung adversarialer Angriffe auf Basis von Sparse Autoencodern (SAEs) vor, das wir SAEgis nennen. Durch die Integration eines SAE-Moduls in ein vortrainiertes VLM und dessen Training mit standardmäßigen Rekonstruktionszielen stellen wir fest, dass die gelernten spärlichen latenten Merkmale natürlicherweise angriffsrelevante Signale erfassen. Diese Merkmale ermöglichen eine zuverlässige Klassifizierung, ob ein Eingabebild adversarial gestört wurde – selbst bei zuvor nicht gesehenen Beispielen. Umfangreiche Experimente zeigen, dass SAEgis sowohl in domäneninternen, domänenübergreifenden als auch in angriffsübergreifenden Szenarien eine hohe Leistung erzielt, insbesondere mit großen Verbesserungen bei der domänenübergreifenden Generalisierung im Vergleich zu bestehenden Basislinien. Darüber hinaus verbessert die Kombination von Signalen aus mehreren Schichten die Robustheit und Stabilität weiter. Unseres Wissens ist dies die erste Arbeit, die SAE als Steck-und-Spiel-Mechanismus zur Erkennung adversarialer Angriffe in VLMs untersucht. Unsere Methode erfordert kein zusätzliches adversariales Training, verursacht nur minimale Zusatzkosten und bietet einen praktischen Ansatz zur Verbesserung der Sicherheit realer VLM-Systeme.

English

Vision-language models (VLMs) have advanced rapidly and are increasingly deployed in real-world applications, especially with the rise of agent-based systems. However, their safety has received relatively limited attention. Even the latest proprietary and open-weight VLMs remain highly vulnerable to adversarial attacks, leaving downstream applications exposed to significant risks. In this work, we propose a novel and lightweight adversarial attack detection framework based on sparse autoencoders (SAEs), termed SAEgis. By inserting an SAE module into a pretrained VLM and training it with standard reconstruction objectives, we find that the learned sparse latent features naturally capture attack-relevant signals. These features enable reliable classification of whether an input image has been adversarially perturbed, even for previously unseen samples. Extensive experiments show that SAEgis achieves strong performance across in-domain, cross-domain, and cross-attack settings, with particularly large improvements in cross-domain generalization compared to existing baselines. In addition, combining signals from multiple layers further improves robustness and stability. To the best of our knowledge, this is the first work to explore SAE as a plug-and-play mechanism for adversarial attack detection in VLMs. Our method requires no additional adversarial training, introduces minimal overhead, and provides a practical approach for improving the safety of real-world VLM systems.

Sparse Autoencoder als Plug-and-Play-Firewalls zur Erkennung von Adversarial-Angriffen in VLMs

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

Zusammenfassung

Support