Menos es más... hasta que se rompe: Riesgos de seguridad en la compresión de tokens visuales en los grandes modelos de visión y lenguaje
Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models
January 17, 2026
Autores: Xiaomei Zhang, Zhaoxi Zhang, Leo Yu Zhang, Yanjun Zhang, Guanhong Tao, Shirui Pan
cs.AI
Resumen
La compresión de tokens visuales se adopta ampliamente para mejorar la eficiencia inferencial de los Grandes Modelos de Lenguaje Visual (LVLM), permitiendo su despliegue en escenarios sensibles a la latencia y con recursos limitados. Sin embargo, los trabajos existentes se han centrado principalmente en la eficiencia y el rendimiento, mientras que las implicaciones de seguridad de la compresión de tokens visuales permanecen en gran medida inexploradas. En este trabajo, revelamos primero que la compresión de tokens visuales degrada sustancialmente la robustez de los LVLM: los modelos que son robustos bajo inferencia sin compresión se vuelven altamente vulnerables una vez que se activa la compresión. Estas vulnerabilidades son específicas del estado; los modos de fallo emergen solo en el escenario comprimido y desaparecen por completo cuando la compresión se desactiva, lo que los hace particularmente ocultos y difíciles de diagnosticar. Al analizar las etapas clave del proceso de compresión, identificamos la inestabilidad en la clasificación de importancia de los tokens como la causa principal de esta degradación de la robustez. Pequeñas perturbaciones imperceptibles pueden alterar significativamente las clasificaciones de los tokens, llevando al mecanismo de compresión a descartar erróneamente información crítica para la tarea y causando finalmente el fallo del modelo. Motivados por esta observación, proponemos un Ataque Consciente de la Compresión para estudiar y explotar sistemáticamente esta vulnerabilidad. El CAA se dirige directamente al mecanismo de selección de tokens e induce fallos exclusivamente bajo inferencia comprimida. Extendemos además este enfoque a entornos de caja negra más realistas e introducimos el CAA por Transferencia, donde ni el modelo objetivo ni la configuración de compresión son accesibles. Evaluamos además defensas potenciales y encontramos que ofrecen solo una protección limitada. Experimentos exhaustivos en diversos modelos, conjuntos de datos y métodos de compresión muestran que la compresión de tokens visuales socava significativamente la robustez, revelando una compensación eficiencia-seguridad previamente pasada por alto.
English
Visual token compression is widely adopted to improve the inference efficiency of Large Vision-Language Models (LVLMs), enabling their deployment in latency-sensitive and resource-constrained scenarios. However, existing work has mainly focused on efficiency and performance, while the security implications of visual token compression remain largely unexplored. In this work, we first reveal that visual token compression substantially degrades the robustness of LVLMs: models that are robust under uncompressed inference become highly vulnerable once compression is enabled. These vulnerabilities are state-specific; failure modes emerge only in the compressed setting and completely disappear when compression is disabled, making them particularly hidden and difficult to diagnose. By analyzing the key stages of the compression process, we identify instability in token importance ranking as the primary cause of this robustness degradation. Small and imperceptible perturbations can significantly alter token rankings, leading the compression mechanism to mistakenly discard task-critical information and ultimately causing model failure. Motivated by this observation, we propose a Compression-Aware Attack to systematically study and exploit this vulnerability. CAA directly targets the token selection mechanism and induces failures exclusively under compressed inference. We further extend this approach to more realistic black-box settings and introduce Transfer CAA, where neither the target model nor the compression configuration is accessible. We further evaluate potential defenses and find that they provide only limited protection. Extensive experiments across models, datasets, and compression methods show that visual token compression significantly undermines robustness, revealing a previously overlooked efficiency-security trade-off.