Une attaque d'une simplicité frustrante mais extrêmement efficace : un taux de réussite supérieur à 90 % contre les modèles black-box robustes de GPT-4.5/4o/o1.

papers.abstract

Malgré les performances prometteuses des grands modèles vision-langage (LVLMs) open-source, les attaques ciblées basées sur le transfert échouent souvent contre les LVLMs commerciaux en boîte noire. L'analyse des perturbations adverses infructueuses révèle que les perturbations apprises proviennent généralement d'une distribution uniforme et manquent de détails sémantiques clairs, entraînant des réponses non intentionnées. Cette absence critique d'information sémantique amène les LVLMs commerciaux à ignorer complètement la perturbation ou à mal interpréter sa sémantique intégrée, ce qui fait échouer l'attaque. Pour surmonter ces problèmes, nous remarquons que l'identification des objets sémantiques clés est un objectif principal pour les modèles entraînés avec divers ensembles de données et méthodologies. Cette observation motive notre approche qui affine la clarté sémantique en encodant des détails sémantiques explicites dans des régions locales, assurant ainsi l'interopérabilité et capturant des caractéristiques plus fines, et en concentrant les modifications sur des zones riches en sémantique plutôt que de les appliquer uniformément. Pour y parvenir, nous proposons une solution simple mais très efficace : à chaque étape d'optimisation, l'image adverse est recadrée aléatoirement selon un rapport d'aspect et une échelle contrôlés, redimensionnée, puis alignée avec l'image cible dans l'espace d'embedding. Les résultats expérimentaux confirment notre hypothèse. Nos exemples adverses élaborés avec des perturbations agrégées localement et concentrées sur des régions cruciales présentent une transférabilité étonnamment bonne vers les LVLMs commerciaux, y compris GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, et même des modèles de raisonnement comme o1, Claude-3.7-thinking et Gemini-2.0-flash-thinking. Notre approche atteint des taux de réussite dépassant 90 % sur GPT-4.5, 4o et o1, surpassant significativement toutes les méthodes d'attaque de pointe précédentes. Nos exemples adverses optimisés sous différentes configurations et le code d'entraînement sont disponibles à l'adresse https://github.com/VILA-Lab/M-Attack.

English

Despite promising performance on open-source large vision-language models (LVLMs), transfer-based targeted attacks often fail against black-box commercial LVLMs. Analyzing failed adversarial perturbations reveals that the learned perturbations typically originate from a uniform distribution and lack clear semantic details, resulting in unintended responses. This critical absence of semantic information leads commercial LVLMs to either ignore the perturbation entirely or misinterpret its embedded semantics, thereby causing the attack to fail. To overcome these issues, we notice that identifying core semantic objects is a key objective for models trained with various datasets and methodologies. This insight motivates our approach that refines semantic clarity by encoding explicit semantic details within local regions, thus ensuring interoperability and capturing finer-grained features, and by concentrating modifications on semantically rich areas rather than applying them uniformly. To achieve this, we propose a simple yet highly effective solution: at each optimization step, the adversarial image is cropped randomly by a controlled aspect ratio and scale, resized, and then aligned with the target image in the embedding space. Experimental results confirm our hypothesis. Our adversarial examples crafted with local-aggregated perturbations focused on crucial regions exhibit surprisingly good transferability to commercial LVLMs, including GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly outperforming all prior state-of-the-art attack methods. Our optimized adversarial examples under different configurations and training code are available at https://github.com/VILA-Lab/M-Attack.

Une attaque d'une simplicité frustrante mais extrêmement efficace : un taux de réussite supérieur à 90 % contre les modèles black-box robustes de GPT-4.5/4o/o1.

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

papers.abstract

Support