Une attaque d'une simplicité frustrante mais extrêmement efficace : un taux de réussite supérieur à 90 % contre les modèles black-box robustes de GPT-4.5/4o/o1.
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
March 13, 2025
Auteurs: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
cs.AI
Résumé
Malgré les performances prometteuses des grands modèles vision-langage (LVLMs) open-source, les attaques ciblées basées sur le transfert échouent souvent contre les LVLMs commerciaux en boîte noire. L'analyse des perturbations adverses infructueuses révèle que les perturbations apprises proviennent généralement d'une distribution uniforme et manquent de détails sémantiques clairs, entraînant des réponses non intentionnées. Cette absence critique d'information sémantique amène les LVLMs commerciaux à ignorer complètement la perturbation ou à mal interpréter sa sémantique intégrée, ce qui fait échouer l'attaque. Pour surmonter ces problèmes, nous remarquons que l'identification des objets sémantiques clés est un objectif principal pour les modèles entraînés avec divers ensembles de données et méthodologies. Cette observation motive notre approche qui affine la clarté sémantique en encodant des détails sémantiques explicites dans des régions locales, assurant ainsi l'interopérabilité et capturant des caractéristiques plus fines, et en concentrant les modifications sur des zones riches en sémantique plutôt que de les appliquer uniformément. Pour y parvenir, nous proposons une solution simple mais très efficace : à chaque étape d'optimisation, l'image adverse est recadrée aléatoirement selon un rapport d'aspect et une échelle contrôlés, redimensionnée, puis alignée avec l'image cible dans l'espace d'embedding. Les résultats expérimentaux confirment notre hypothèse. Nos exemples adverses élaborés avec des perturbations agrégées localement et concentrées sur des régions cruciales présentent une transférabilité étonnamment bonne vers les LVLMs commerciaux, y compris GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, et même des modèles de raisonnement comme o1, Claude-3.7-thinking et Gemini-2.0-flash-thinking. Notre approche atteint des taux de réussite dépassant 90 % sur GPT-4.5, 4o et o1, surpassant significativement toutes les méthodes d'attaque de pointe précédentes. Nos exemples adverses optimisés sous différentes configurations et le code d'entraînement sont disponibles à l'adresse https://github.com/VILA-Lab/M-Attack.
English
Despite promising performance on open-source large vision-language models
(LVLMs), transfer-based targeted attacks often fail against black-box
commercial LVLMs. Analyzing failed adversarial perturbations reveals that the
learned perturbations typically originate from a uniform distribution and lack
clear semantic details, resulting in unintended responses. This critical
absence of semantic information leads commercial LVLMs to either ignore the
perturbation entirely or misinterpret its embedded semantics, thereby causing
the attack to fail. To overcome these issues, we notice that identifying core
semantic objects is a key objective for models trained with various datasets
and methodologies. This insight motivates our approach that refines semantic
clarity by encoding explicit semantic details within local regions, thus
ensuring interoperability and capturing finer-grained features, and by
concentrating modifications on semantically rich areas rather than applying
them uniformly. To achieve this, we propose a simple yet highly effective
solution: at each optimization step, the adversarial image is cropped randomly
by a controlled aspect ratio and scale, resized, and then aligned with the
target image in the embedding space. Experimental results confirm our
hypothesis. Our adversarial examples crafted with local-aggregated
perturbations focused on crucial regions exhibit surprisingly good
transferability to commercial LVLMs, including GPT-4.5, GPT-4o,
Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning
models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach
achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly
outperforming all prior state-of-the-art attack methods. Our optimized
adversarial examples under different configurations and training code are
available at https://github.com/VILA-Lab/M-Attack.Summary
AI-Generated Summary