Meno è Meglio — Finché Non Si Rompe: Insidie della Sicurezza nella Compressione dei Token Visivi nei Grandi Modelli Linguistico-Visivi

Abstract

La compressione visiva dei token è ampiamente adottata per migliorare l'efficienza inferenziale dei Large Vision-Language Models (LVLM), consentendone l'implementazione in scenari con vincoli di latenza e risorse. Tuttavia, i lavori esistenti si sono concentrati principalmente su efficienza e prestazioni, mentre le implicazioni per la sicurezza della compressione visiva dei token rimangono in gran parte inesplorate. In questo lavoro, riveliamo per la prima volta che la compressione visiva dei token degrada sostanzialmente la robustezza degli LVLM: modelli che sono robusti in condizioni di inferenza non compressa diventano altamente vulnerabili una volta abilitata la compressione. Queste vulnerabilità sono state-specifiche; le modalità di fallimento emergono solo nell'ambiente compresso e scompaiono completamente quando la compressione è disabilitata, rendendole particolarmente nascoste e difficili da diagnosticare. Analizzando le fasi chiave del processo di compressione, identifichiamo l'instabilità nella classificazione d'importanza dei token come causa primaria di questa degradazione della robustezza. Piccole perturbazioni impercettibili possono alterare significativamente le classificazioni dei token, portando il meccanismo di compressione a scartare erroneamente informazioni cruciali per il compito e causando infine il fallimento del modello. Motivati da questa osservazione, proponiamo un Attacco Consapevole della Compressione (CAA) per studiare e sfruttare sistematicamente questa vulnerabilità. Il CAA mira direttamente al meccanismo di selezione dei token e induce fallimenti esclusivamente in condizioni di inferenza compressa. Estendiamo ulteriormente questo approccio a scenari black-box più realistici e introduciamo il Transfer CAA, dove né il modello target né la configurazione di compressione sono accessibili. Valutiamo inoltre potenziali difese e riscontriamo che offrono solo una protezione limitata. Esperimenti estesi su modelli, dataset e metodi di compressione dimostrano che la compressione visiva dei token mina significativamente la robustezza, rivelando un compromesso efficienza-sicurezza precedentemente trascurato.

English

Visual token compression is widely adopted to improve the inference efficiency of Large Vision-Language Models (LVLMs), enabling their deployment in latency-sensitive and resource-constrained scenarios. However, existing work has mainly focused on efficiency and performance, while the security implications of visual token compression remain largely unexplored. In this work, we first reveal that visual token compression substantially degrades the robustness of LVLMs: models that are robust under uncompressed inference become highly vulnerable once compression is enabled. These vulnerabilities are state-specific; failure modes emerge only in the compressed setting and completely disappear when compression is disabled, making them particularly hidden and difficult to diagnose. By analyzing the key stages of the compression process, we identify instability in token importance ranking as the primary cause of this robustness degradation. Small and imperceptible perturbations can significantly alter token rankings, leading the compression mechanism to mistakenly discard task-critical information and ultimately causing model failure. Motivated by this observation, we propose a Compression-Aware Attack to systematically study and exploit this vulnerability. CAA directly targets the token selection mechanism and induces failures exclusively under compressed inference. We further extend this approach to more realistic black-box settings and introduce Transfer CAA, where neither the target model nor the compression configuration is accessible. We further evaluate potential defenses and find that they provide only limited protection. Extensive experiments across models, datasets, and compression methods show that visual token compression significantly undermines robustness, revealing a previously overlooked efficiency-security trade-off.

Meno è Meglio — Finché Non Si Rompe: Insidie della Sicurezza nella Compressione dei Token Visivi nei Grandi Modelli Linguistico-Visivi

Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models

Abstract

Support