ChatPaper.aiChatPaper

Few Tokens Matter: 視覚言語モデルに対するエントロピー誘導型攻撃

Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

December 26, 2025
著者: Mengqi He, Xinyu Tian, Xin Shen, Jinhong Ni, Shu Zou, Zhaoyuan Yang, Jing Zhang
cs.AI

要旨

視覚言語モデル(VLM)は優れた性能を達成する一方、敵対的攻撃に対して脆弱性を残している。モデルの不確実性を測る指標であるエントロピーは、VLMの信頼性と強く相関する。従来のエントロピーベースの攻撃は全てのデコード段階で不確実性を最大化するが、これは各トークンが生成不安定性に等しく寄与すると暗黙に仮定している。本研究では、自己回帰的生成における臨界決定点である高エントロピートークンのごく一部(約20%)が、出力軌道を不均衡に支配することを明らかにする。これらの位置に敵対的摂動を集中させることで、大幅に小さいバジェットでグローバル手法と同等の意味的劣化を達成する。さらに重要なことに、複数の代表的なVLMにおいて、この選択的攻撃は良性出力の35-49%を有害出力に変換し、より深刻な安全性リスクを露呈する。特筆すべきは、これらの脆弱な高エントロピー分岐点が構造的に多様なVLM間で再現され、実現可能な転移性(未学習ターゲットでの17-26%の有害化率)を可能にすることである。これらの知見に基づき、我々はEntropy-bank Guided Adversarial attacks(EGA)を提案する。本手法は高い有害化変換率と並行して競争力のある攻撃成功率(93-95%)を達成し、現在のVLM安全メカニズムの新たな弱点を明らかにする。
English
Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.
PDF151January 10, 2026