ChatPaper.aiChatPaper

非常に単純でありながら驚くほど効果的な攻撃ベースライン:GPT-4.5/4o/o1の強力なブラックボックスモデルに対して90%以上の成功率を達成

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

March 13, 2025
著者: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
cs.AI

要旨

オープンソースの大規模視覚言語モデル(LVLM)において有望な性能を示すにもかかわらず、転移ベースのターゲット攻撃はブラックボックスの商用LVLMに対してしばしば失敗します。失敗した敵対的摂動を分析すると、学習された摂動は通常、一様分布から発生し、明確な意味的詳細を欠いているため、意図しない応答を引き起こすことがわかります。この意味情報の重大な欠如により、商用LVLMは摂動を完全に無視するか、埋め込まれた意味を誤解し、その結果、攻撃が失敗します。これらの問題を克服するために、私たちは、コアとなる意味的オブジェクトを特定することが、さまざまなデータセットと方法論で訓練されたモデルの主要な目的であることに気づきました。この洞察は、局所領域内に明示的な意味的詳細をエンコードすることで意味的明確性を向上させ、相互運用性を確保し、より細かい特徴を捉えること、そして一様に適用するのではなく、意味的に豊かな領域に修正を集中させるというアプローチを動機づけます。これを実現するために、各最適化ステップで、敵対的画像を制御されたアスペクト比とスケールでランダムに切り取り、リサイズし、ターゲット画像と埋め込み空間で整列させるという、シンプルでありながら非常に効果的なソリューションを提案します。実験結果は私たちの仮説を裏付けます。重要な領域に焦点を当てた局所集約摂動で作成された敵対的例は、GPT-4.5、GPT-4o、Gemini-2.0-flash、Claude-3.5-sonnet、Claude-3.7-sonnet、さらにはo1、Claude-3.7-thinking、Gemini-2.0-flash-thinkingなどの推論モデルを含む商用LVLMに対して驚くほど良い転移性を示します。私たちのアプローチは、GPT-4.5、4o、およびo1で90%を超える成功率を達成し、これまでのすべての最先端の攻撃方法を大幅に上回ります。異なる構成とトレーニングコードの下で最適化された敵対的例は、https://github.com/VILA-Lab/M-Attackで入手可能です。
English
Despite promising performance on open-source large vision-language models (LVLMs), transfer-based targeted attacks often fail against black-box commercial LVLMs. Analyzing failed adversarial perturbations reveals that the learned perturbations typically originate from a uniform distribution and lack clear semantic details, resulting in unintended responses. This critical absence of semantic information leads commercial LVLMs to either ignore the perturbation entirely or misinterpret its embedded semantics, thereby causing the attack to fail. To overcome these issues, we notice that identifying core semantic objects is a key objective for models trained with various datasets and methodologies. This insight motivates our approach that refines semantic clarity by encoding explicit semantic details within local regions, thus ensuring interoperability and capturing finer-grained features, and by concentrating modifications on semantically rich areas rather than applying them uniformly. To achieve this, we propose a simple yet highly effective solution: at each optimization step, the adversarial image is cropped randomly by a controlled aspect ratio and scale, resized, and then aligned with the target image in the embedding space. Experimental results confirm our hypothesis. Our adversarial examples crafted with local-aggregated perturbations focused on crucial regions exhibit surprisingly good transferability to commercial LVLMs, including GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly outperforming all prior state-of-the-art attack methods. Our optimized adversarial examples under different configurations and training code are available at https://github.com/VILA-Lab/M-Attack.

Summary

AI-Generated Summary

PDF32March 14, 2025