Menos É Mais — Até Quebrar: Armadilhas de Segurança na Compactação de Tokens Visuais em Grandes Modelos de Linguagem e Visão

Resumo

A compressão de tokens visuais é amplamente adotada para melhorar a eficiência de inferência de Grandes Modelos de Linguagem e Visão (LVLMs), permitindo sua implantação em cenários sensíveis à latência e com recursos limitados. No entanto, os trabalhos existentes concentraram-se principalmente na eficiência e no desempenho, enquanto as implicações de segurança da compressão de tokens visuais permanecem amplamente inexploradas. Neste trabalho, revelamos primeiro que a compressão de tokens visuais degrada substancialmente a robustez dos LVLMs: modelos que são robustos sob inferência não comprimida tornam-se altamente vulneráveis uma vez que a compressão é ativada. Essas vulnerabilidades são específicas do estado; modos de falha emergem apenas no cenário comprimido e desaparecem completamente quando a compressão é desativada, tornando-os particularmente ocultos e difíceis de diagnosticar. Ao analisar os estágios-chave do processo de compressão, identificamos a instabilidade na classificação de importância dos tokens como a causa principal dessa degradação da robustez. Pequenas e imperceptíveis perturbações podem alterar significativamente as classificações dos tokens, levando o mecanismo de compressão a descartar erroneamente informações críticas para a tarefa e, por fim, causando falha do modelo. Motivados por essa observação, propomos um Ataque Consciente da Compressão para estudar e explorar sistematicamente essa vulnerabilidade. O CAA tem como alvo direto o mecanismo de seleção de tokens e induz falhas exclusivamente sob inferência comprimida. Estendemos ainda mais essa abordagem para cenários mais realistas de caixa-preta e introduzimos o Transfer CAA, onde nem o modelo alvo nem a configuração de compressão são acessíveis. Avaliamos ainda possíveis defesas e descobrimos que elas oferecem apenas proteção limitada. Experimentos extensos em modelos, conjuntos de dados e métodos de compressão mostram que a compressão de tokens visuais prejudica significativamente a robustez, revelando uma compensação entre eficiência e segurança anteriormente negligenciada.

English

Visual token compression is widely adopted to improve the inference efficiency of Large Vision-Language Models (LVLMs), enabling their deployment in latency-sensitive and resource-constrained scenarios. However, existing work has mainly focused on efficiency and performance, while the security implications of visual token compression remain largely unexplored. In this work, we first reveal that visual token compression substantially degrades the robustness of LVLMs: models that are robust under uncompressed inference become highly vulnerable once compression is enabled. These vulnerabilities are state-specific; failure modes emerge only in the compressed setting and completely disappear when compression is disabled, making them particularly hidden and difficult to diagnose. By analyzing the key stages of the compression process, we identify instability in token importance ranking as the primary cause of this robustness degradation. Small and imperceptible perturbations can significantly alter token rankings, leading the compression mechanism to mistakenly discard task-critical information and ultimately causing model failure. Motivated by this observation, we propose a Compression-Aware Attack to systematically study and exploit this vulnerability. CAA directly targets the token selection mechanism and induces failures exclusively under compressed inference. We further extend this approach to more realistic black-box settings and introduce Transfer CAA, where neither the target model nor the compression configuration is accessible. We further evaluate potential defenses and find that they provide only limited protection. Extensive experiments across models, datasets, and compression methods show that visual token compression significantly undermines robustness, revealing a previously overlooked efficiency-security trade-off.

Menos É Mais — Até Quebrar: Armadilhas de Segurança na Compactação de Tokens Visuais em Grandes Modelos de Linguagem e Visão

Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models

Resumo

Support