Moins, c'est plus — jusqu'à la rupture : les écueils de sécurité liés à la compression des tokens visuels dans les grands modèles vision-langage
Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models
January 17, 2026
papers.authors: Xiaomei Zhang, Zhaoxi Zhang, Leo Yu Zhang, Yanjun Zhang, Guanhong Tao, Shirui Pan
cs.AI
papers.abstract
La compression des tokens visuels est largement adoptée pour améliorer l'efficacité d'inférence des Grands Modèles Vision-Langage (GVL), permettant leur déploiement dans des scénarios sensibles à la latence et aux ressources limitées. Cependant, les travaux existants se sont principalement concentrés sur l'efficacité et les performances, tandis que les implications sécuritaires de la compression des tokens visuels demeurent largement inexplorées. Dans ce travail, nous révélons d'abord que la compression des tokens visuels dégrade substantiellement la robustesse des GVL : les modèles robustes lors de l'inférence non compressée deviennent hautement vulnérables une fois la compression activée. Ces vulnérabilités sont spécifiques à l'état ; les modes de défaillance n'émergent qu'en configuration compressée et disparaissent complètement lorsque la compression est désactivée, les rendant particulièrement cachés et difficiles à diagnostiquer. En analysant les étapes clés du processus de compression, nous identifions l'instabilité du classement d'importance des tokens comme la cause principale de cette dégradation de robustesse. De petites perturbations imperceptibles peuvent altérer significativement le classement des tokens, amenant le mécanisme de compression à rejeter par erreur des informations critiques pour la tâche et provoquant in fine l'échec du modèle. Motivés par cette observation, nous proposons une Attaque Sensible à la Compression pour étudier et exploiter systématiquement cette vulnérabilité. L'ASC cible directement le mécanisme de sélection des tokens et induit des défaillances exclusivement lors de l'inférence compressée. Nous étendons cette approche à des scénarios boîte noire plus réalistes et introduisons l'ASC par Transfert, où ni le modèle cible ni la configuration de compression ne sont accessibles. Nous évaluons ensuite les défenses potentielles et constatons qu'elles n'offrent qu'une protection limitée. Des expérimentations approfondies sur divers modèles, jeux de données et méthodes de compression montrent que la compression des tokens visuels compromet significativement la robustesse, révélant un compromis efficacité-sécurité précédemment négligé.
English
Visual token compression is widely adopted to improve the inference efficiency of Large Vision-Language Models (LVLMs), enabling their deployment in latency-sensitive and resource-constrained scenarios. However, existing work has mainly focused on efficiency and performance, while the security implications of visual token compression remain largely unexplored. In this work, we first reveal that visual token compression substantially degrades the robustness of LVLMs: models that are robust under uncompressed inference become highly vulnerable once compression is enabled. These vulnerabilities are state-specific; failure modes emerge only in the compressed setting and completely disappear when compression is disabled, making them particularly hidden and difficult to diagnose. By analyzing the key stages of the compression process, we identify instability in token importance ranking as the primary cause of this robustness degradation. Small and imperceptible perturbations can significantly alter token rankings, leading the compression mechanism to mistakenly discard task-critical information and ultimately causing model failure. Motivated by this observation, we propose a Compression-Aware Attack to systematically study and exploit this vulnerability. CAA directly targets the token selection mechanism and induces failures exclusively under compressed inference. We further extend this approach to more realistic black-box settings and introduce Transfer CAA, where neither the target model nor the compression configuration is accessible. We further evaluate potential defenses and find that they provide only limited protection. Extensive experiments across models, datasets, and compression methods show that visual token compression significantly undermines robustness, revealing a previously overlooked efficiency-security trade-off.