視覚言語モデルのロバスト性向上のための機能語への注意削減
Pay Less Attention to Function Words for Free Robustness of Vision-Language Models
December 8, 2025
著者: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Chao Shen
cs.AI
要旨
ロバストなVLMにおける頑健性と性能のトレードオフに対処するため、本論文では機能語がVLMのクロスモーダル敵対的攻撃に対する脆弱性を引き起こす可能性を指摘し、機能語の影響を軽減するFunction-word De-Attention(FDA)を提案する。差動増幅器と同様に、FDAはアテンションヘッド内で元のクロスアテンションと機能語クロスアテンションを計算し、後者を前者から差動的に減算することで、より整合性が高く頑健なVLMを実現する。包括的実験として、2つの下流タスク、3つのデータセット、3つのモデルにおいて、6種類の攻撃手法を用いた2つのSOTAベースラインを評価した。全体として、FDAは検索タスクにおいて3つのテストモデルで平均18/13/53%のASR低下を達成し、性能低下はわずか0.2/0.3/0.6%に抑えられた。視覚的接地タスクでは90%のASR低下と0.3%の性能向上を達成した。FDAの拡張性、一般化性、ゼロショット性能を実験的に実証するとともに、詳細なアブレーションスタディと分析を実施する。コードはhttps://github.com/michaeltian108/FDA で公開予定である。
English
To address the trade-off between robustness and performance for robust VLM, we observe that function words could incur vulnerability of VLMs against cross-modal adversarial attacks, and propose Function-word De-Attention (FDA) accordingly to mitigate the impact of function words. Similar to differential amplifiers, our FDA calculates the original and the function-word cross-attention within attention heads, and differentially subtracts the latter from the former for more aligned and robust VLMs. Comprehensive experiments include 2 SOTA baselines under 6 different attacks on 2 downstream tasks, 3 datasets, and 3 models. Overall, our FDA yields an average 18/13/53% ASR drop with only 0.2/0.3/0.6% performance drops on the 3 tested models on retrieval, and a 90% ASR drop with a 0.3% performance gain on visual grounding. We demonstrate the scalability, generalization, and zero-shot performance of FDA experimentally, as well as in-depth ablation studies and analysis. Code will be made publicly at https://github.com/michaeltian108/FDA.