Una linea di attacco frustrantemente semplice ma altamente efficace: oltre il 90% di tasso di successo contro i robusti modelli black-box di GPT-4.5/4o/o1.
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
March 13, 2025
Autori: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
cs.AI
Abstract
Nonostante le prestazioni promettenti dei modelli linguistico-visivi open-source di grandi dimensioni (LVLM), gli attacchi mirati basati sul trasferimento spesso falliscono contro i LVLM commerciali black-box. L'analisi delle perturbazioni avversarie fallite rivela che le perturbazioni apprese tipicamente originano da una distribuzione uniforme e mancano di dettagli semantici chiari, portando a risposte non intenzionali. Questa assenza critica di informazioni semantiche induce i LVLM commerciali a ignorare completamente la perturbazione o a interpretare erroneamente la semantica incorporata, causando così il fallimento dell'attacco. Per superare questi problemi, notiamo che l'identificazione di oggetti semantici core è un obiettivo chiave per i modelli addestrati con vari dataset e metodologie. Questa intuizione motiva il nostro approccio, che affina la chiarezza semantica codificando dettagli semantici espliciti all'interno di regioni locali, garantendo così l'interoperabilità e catturando caratteristiche più granulari, e concentrando le modifiche su aree semanticamente ricche piuttosto che applicandole uniformemente. Per raggiungere questo obiettivo, proponiamo una soluzione semplice ma altamente efficace: a ogni passo di ottimizzazione, l'immagine avversaria viene ritagliata casualmente con un rapporto d'aspetto e una scala controllati, ridimensionata e poi allineata con l'immagine target nello spazio di embedding. I risultati sperimentali confermano la nostra ipotesi. I nostri esempi avversari creati con perturbazioni aggregate localmente focalizzate su regioni cruciali mostrano una trasferibilità sorprendentemente buona ai LVLM commerciali, inclusi GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet e persino modelli di ragionamento come o1, Claude-3.7-thinking e Gemini-2.0-flash-thinking. Il nostro approccio raggiunge tassi di successo superiori al 90% su GPT-4.5, 4o e o1, superando significativamente tutti i precedenti metodi di attacco all'avanguardia. I nostri esempi avversari ottimizzati in diverse configurazioni e il codice di addestramento sono disponibili su https://github.com/VILA-Lab/M-Attack.
English
Despite promising performance on open-source large vision-language models
(LVLMs), transfer-based targeted attacks often fail against black-box
commercial LVLMs. Analyzing failed adversarial perturbations reveals that the
learned perturbations typically originate from a uniform distribution and lack
clear semantic details, resulting in unintended responses. This critical
absence of semantic information leads commercial LVLMs to either ignore the
perturbation entirely or misinterpret its embedded semantics, thereby causing
the attack to fail. To overcome these issues, we notice that identifying core
semantic objects is a key objective for models trained with various datasets
and methodologies. This insight motivates our approach that refines semantic
clarity by encoding explicit semantic details within local regions, thus
ensuring interoperability and capturing finer-grained features, and by
concentrating modifications on semantically rich areas rather than applying
them uniformly. To achieve this, we propose a simple yet highly effective
solution: at each optimization step, the adversarial image is cropped randomly
by a controlled aspect ratio and scale, resized, and then aligned with the
target image in the embedding space. Experimental results confirm our
hypothesis. Our adversarial examples crafted with local-aggregated
perturbations focused on crucial regions exhibit surprisingly good
transferability to commercial LVLMs, including GPT-4.5, GPT-4o,
Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning
models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach
achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly
outperforming all prior state-of-the-art attack methods. Our optimized
adversarial examples under different configurations and training code are
available at https://github.com/VILA-Lab/M-Attack.Summary
AI-Generated Summary