Weniger ist mehr – bis es bricht: Sicherheitsrisiken der Bild-Token-Kompression in großen visuell-sprachlichen Modellen
Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models
January 17, 2026
papers.authors: Xiaomei Zhang, Zhaoxi Zhang, Leo Yu Zhang, Yanjun Zhang, Guanhong Tao, Shirui Pan
cs.AI
papers.abstract
Visuelle Token-Kompression wird häufig eingesetzt, um die Inferenzeffizienz großer visuell-sprachlicher Modelle (LVLMs) zu verbessern und ihren Einsatz in latenzsensiblen und ressourcenbeschränkten Szenarien zu ermöglichen. Bisherige Arbeiten konzentrierten sich jedoch hauptsächlich auf Effizienz und Leistung, während die Sicherheitsimplikationen der visuellen Token-Kompression weitgehend unerforscht bleiben. In dieser Arbeit zeigen wir erstmals, dass visuelle Token-Kompression die Robustheit von LVLMs erheblich verringert: Modelle, die bei unkomprimierter Inferenz robust sind, werden hochgradig anfällig, sobald Kompression aktiviert ist. Diese Schwachstellen sind zustandsspezifisch; Fehlermodi treten nur im komprimierten Modus auf und verschwinden vollständig, wenn die Kompression deaktiviert wird, was sie besonders versteckt und schwer zu diagnostizieren macht. Durch die Analyse der Schlüsselphasen des Kompressionsprozesses identifizieren wir Instabilität in der Token-Bedeutungsrangfolge als Hauptursache für diesen Robustheitsverlust. Geringfügige und unbemerkbare Perturbationen können Token-Rankings erheblich verändern, was den Kompressionsmechanismus dazu verleitet, aufgabenkritische Informationen fälschlicherweise zu verwerfen und letztlich zum Modellversagen führt. Aufbauend auf dieser Erkenntnis schlagen wir einen kompressionsbewussten Angriff (Compression-Aware Attack, CAA) vor, um diese Schwachstelle systematisch zu untersuchen und auszunutzen. CAA zielt direkt auf den Token-Auswahlmechanismus ab und induziert Fehler ausschließlich unter komprimierter Inferenz. Wir erweitern diesen Ansatz auf realistischere Black-Box-Szenarien und führen Transfer-CAA ein, bei dem weder das Zielmodell noch die Kompressionskonfiguration zugänglich sind. Wir evaluieren zudem mögliche Verteidigungsstrategien und stellen fest, dass diese nur begrenzten Schutz bieten. Umfangreiche Experimente mit verschiedenen Modellen, Datensätzen und Kompressionsmethoden zeigen, dass visuelle Token-Kompression die Robustheit erheblich beeinträchtigt und damit einen bisher übersehenen Zielkonflikt zwischen Effizienz und Sicherheit aufdeckt.
English
Visual token compression is widely adopted to improve the inference efficiency of Large Vision-Language Models (LVLMs), enabling their deployment in latency-sensitive and resource-constrained scenarios. However, existing work has mainly focused on efficiency and performance, while the security implications of visual token compression remain largely unexplored. In this work, we first reveal that visual token compression substantially degrades the robustness of LVLMs: models that are robust under uncompressed inference become highly vulnerable once compression is enabled. These vulnerabilities are state-specific; failure modes emerge only in the compressed setting and completely disappear when compression is disabled, making them particularly hidden and difficult to diagnose. By analyzing the key stages of the compression process, we identify instability in token importance ranking as the primary cause of this robustness degradation. Small and imperceptible perturbations can significantly alter token rankings, leading the compression mechanism to mistakenly discard task-critical information and ultimately causing model failure. Motivated by this observation, we propose a Compression-Aware Attack to systematically study and exploit this vulnerability. CAA directly targets the token selection mechanism and induces failures exclusively under compressed inference. We further extend this approach to more realistic black-box settings and introduce Transfer CAA, where neither the target model nor the compression configuration is accessible. We further evaluate potential defenses and find that they provide only limited protection. Extensive experiments across models, datasets, and compression methods show that visual token compression significantly undermines robustness, revealing a previously overlooked efficiency-security trade-off.