Autoencoders Dispersos como Cortafuegos Plug-and-Play para la Detección de Ataques Adversarios en VLM
Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs
May 8, 2026
Autores: Hao Wang, Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh, Daisuke Kawahara
cs.AI
Resumen
Los modelos de lenguaje visual (VLM) han avanzado rápidamente y se están implementando cada vez más en aplicaciones del mundo real, especialmente con el auge de los sistemas basados en agentes. Sin embargo, su seguridad ha recibido una atención relativamente limitada. Incluso los VLM propietarios y de peso abierto más recientes siguen siendo altamente vulnerables a ataques adversariales, lo que expone a las aplicaciones subyacentes a riesgos significativos. En este trabajo, proponemos un marco novedoso y ligero de detección de ataques adversariales basado en autoencoders dispersos (SAE), denominado SAEgis. Al insertar un módulo SAE en un VLM preentrenado y entrenarlo con objetivos de reconstrucción estándar, descubrimos que las características latentes dispersas aprendidas capturan naturalmente señales relevantes para los ataques. Estas características permiten clasificar de manera fiable si una imagen de entrada ha sido perturbada adversarialmente, incluso para muestras no vistas previamente. Experimentos exhaustivos muestran que SAEgis logra un rendimiento sólido en entornos intradominio, interdominio e interataque, con mejoras particularmente grandes en la generalización interdominio en comparación con las líneas base existentes. Además, combinar señales de múltiples capas mejora aún más la robustez y la estabilidad. Hasta donde sabemos, este es el primer trabajo que explora SAE como un mecanismo plug-and-play para la detección de ataques adversariales en VLM. Nuestro método no requiere entrenamiento adversarial adicional, introduce una sobrecarga mínima y proporciona un enfoque práctico para mejorar la seguridad de los sistemas VLM del mundo real.
English
Vision-language models (VLMs) have advanced rapidly and are increasingly deployed in real-world applications, especially with the rise of agent-based systems. However, their safety has received relatively limited attention. Even the latest proprietary and open-weight VLMs remain highly vulnerable to adversarial attacks, leaving downstream applications exposed to significant risks. In this work, we propose a novel and lightweight adversarial attack detection framework based on sparse autoencoders (SAEs), termed SAEgis. By inserting an SAE module into a pretrained VLM and training it with standard reconstruction objectives, we find that the learned sparse latent features naturally capture attack-relevant signals. These features enable reliable classification of whether an input image has been adversarially perturbed, even for previously unseen samples. Extensive experiments show that SAEgis achieves strong performance across in-domain, cross-domain, and cross-attack settings, with particularly large improvements in cross-domain generalization compared to existing baselines. In addition, combining signals from multiple layers further improves robustness and stability. To the best of our knowledge, this is the first work to explore SAE as a plug-and-play mechanism for adversarial attack detection in VLMs. Our method requires no additional adversarial training, introduces minimal overhead, and provides a practical approach for improving the safety of real-world VLM systems.