ChatPaper.aiChatPaper

多面的攻撃:防御機能を備えた視覚言語モデルにおけるクロスモデル脆弱性の露呈

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

November 20, 2025
著者: Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu
cs.AI

要旨

ビジョン言語モデル(VLM)の誤用が増加していることを受け、プロバイダーはアライメント調整、システムプロンプト、コンテンツモデレーションなど複数のセーフガードを導入している。しかし、敵対的攻撃に対するこれらの防御策の実世界での頑健性は未だ十分に検証されていない。本研究では、GPT-4o、Gemini-Pro、Llama-4などの主要な防御機能付きVLMに普遍的に存在する安全性の脆弱性を体系的に露呈するフレームワーク、Multi-Faceted Attack(MFA)を提案する。MFAの中核をなすのは、競合する目的を持つメタタスク内に有害な指示を隠蔽するAttention-Transfer Attack(ATA)である。本攻撃が成功する理論的根拠を、報酬ハッキングの観点から説明する。さらに、モデル固有のファインチューニングを必要とせず、入力レベルと出力レベルの両方のフィルターを同時に回避する、軽量な転移性向上アルゴリズムと単純な反復戦略を組み合わせて提案する。実験により、ある視覚エンコーダ向けに最適化した敵対的画像が未見のVLMに広く転移可能であることを示し、共有された視覚表現がモデル横断的な安全性の脆弱性を生み出すことを明らかにする。全体として、MFAは58.5%の成功率を達成し、既存手法を一貫して上回った。特に最新の商用モデルでは52.8%の成功率を達成し、第二位の攻撃手法を34%上回った。これらの結果は、現在の防御機構の頑健性に対する通念に疑問を投げかけ、現代のVLMに存在する根強い安全性の弱点を浮き彫りにする。コード:https://github.com/cure-lab/MultiFacetedAttack
English
The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
PDF12December 1, 2025