少なければ少ないほど良い――限界までは:大規模視覚言語モデルにおける視覚トークン圧縮のセキュリティ上の落とし穴
Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models
January 17, 2026
著者: Xiaomei Zhang, Zhaoxi Zhang, Leo Yu Zhang, Yanjun Zhang, Guanhong Tao, Shirui Pan
cs.AI
要旨
視覚トークン圧縮は、大規模視覚言語モデル(LVLM)の推論効率を向上させるために広く採用されており、遅延に敏感でリソースが制約されるシナリオへの展開を可能にしている。しかし、既存研究は主に効率性と性能に焦点を当てており、視覚トークン圧縮のセキュリティへの影響はほとんど検討されていない。本研究ではまず、視覚トークン圧縮がLVLMの頑健性を大幅に低下させることを明らかにする:非圧縮推論下で頑健であったモデルも、圧縮を有効にすると極めて脆弱になる。これらの脆弱性は状態特異的であり、故障モードは圧縮設定時のみに出現し、圧縮を無効にすると完全に消失するため、特に潜在的に発見・診断が困難である。圧縮プロセスの主要段階を分析することにより、トークン重要度ランキングの不安定性が、この頑健性低下の主原因であることを同定する。微小で知覚不能な摂動がトークンランキングを大きく変化させ、圧縮機構がタスクに不可欠な情報を誤って破棄し、最終的にモデルの故障を引き起こすのである。この知見に基づき、我々はこの脆弱性を体系的に調査・悪用するための圧縮対応攻撃(Compression-Aware Attack, CAA)を提案する。CAAはトークン選択機構を直接標的とし、圧縮推論時のみに故障を誘発する。さらに、このアプローチをより現実的なブラックボックス設定に拡張し、対象モデルも圧縮設定もアクセス不能な状況での転移CAA(Transfer CAA)を導入する。潜在的な防御手法の評価も行い、それらが限定的な保護しか提供しないことを見出した。モデル、データセット、圧縮手法にわたる広範な実験により、視覚トークン圧縮が頑健性を著しく損なうことが示され、これまで見過ごされてきた効率性とセキュリティのトレードオフが明らかになった。
English
Visual token compression is widely adopted to improve the inference efficiency of Large Vision-Language Models (LVLMs), enabling their deployment in latency-sensitive and resource-constrained scenarios. However, existing work has mainly focused on efficiency and performance, while the security implications of visual token compression remain largely unexplored. In this work, we first reveal that visual token compression substantially degrades the robustness of LVLMs: models that are robust under uncompressed inference become highly vulnerable once compression is enabled. These vulnerabilities are state-specific; failure modes emerge only in the compressed setting and completely disappear when compression is disabled, making them particularly hidden and difficult to diagnose. By analyzing the key stages of the compression process, we identify instability in token importance ranking as the primary cause of this robustness degradation. Small and imperceptible perturbations can significantly alter token rankings, leading the compression mechanism to mistakenly discard task-critical information and ultimately causing model failure. Motivated by this observation, we propose a Compression-Aware Attack to systematically study and exploit this vulnerability. CAA directly targets the token selection mechanism and induces failures exclusively under compressed inference. We further extend this approach to more realistic black-box settings and introduce Transfer CAA, where neither the target model nor the compression configuration is accessible. We further evaluate potential defenses and find that they provide only limited protection. Extensive experiments across models, datasets, and compression methods show that visual token compression significantly undermines robustness, revealing a previously overlooked efficiency-security trade-off.