Uma Linha de Base de Ataque Frustrantemente Simples, mas Altamente Eficaz: Taxa de Sucesso Superior a 90% Contra os Modelos de Caixa Preta Fortes do GPT-4.5/4o/o1
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
March 13, 2025
Autores: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
cs.AI
Resumo
Apesar do desempenho promissor dos modelos de linguagem e visão de grande escala (LVLMs) de código aberto, os ataques direcionados baseados em transferência frequentemente falham contra LVLMs comerciais de caixa preta. A análise das perturbações adversariais malsucedidas revela que as perturbações aprendidas geralmente se originam de uma distribuição uniforme e carecem de detalhes semânticos claros, resultando em respostas não intencionais. Essa ausência crítica de informação semântica faz com que os LVLMs comerciais ignorem completamente a perturbação ou interpretem mal sua semântica embutida, causando assim a falha do ataque. Para superar esses problemas, observamos que a identificação de objetos semânticos centrais é um objetivo-chave para modelos treinados com diversos conjuntos de dados e metodologias. Essa percepção motiva nossa abordagem, que aprimora a clareza semântica ao codificar detalhes semânticos explícitos em regiões locais, garantindo assim interoperabilidade e capturando características mais refinadas, e ao concentrar as modificações em áreas semanticamente ricas, em vez de aplicá-las uniformemente. Para alcançar isso, propomos uma solução simples, mas altamente eficaz: em cada etapa de otimização, a imagem adversarial é recortada aleatoriamente por uma proporção de aspecto e escala controladas, redimensionada e então alinhada com a imagem alvo no espaço de incorporação. Os resultados experimentais confirmam nossa hipótese. Nossos exemplos adversariais criados com perturbações agregadas localmente e focadas em regiões cruciais exibem uma transferibilidade surpreendentemente boa para LVLMs comerciais, incluindo GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, e até mesmo modelos de raciocínio como o1, Claude-3.7-thinking e Gemini-2.0-flash-thinking. Nossa abordagem alcança taxas de sucesso superiores a 90% em GPT-4.5, 4o e o1, superando significativamente todos os métodos de ataque state-of-the-art anteriores. Nossos exemplos adversariais otimizados sob diferentes configurações e código de treinamento estão disponíveis em https://github.com/VILA-Lab/M-Attack.
English
Despite promising performance on open-source large vision-language models
(LVLMs), transfer-based targeted attacks often fail against black-box
commercial LVLMs. Analyzing failed adversarial perturbations reveals that the
learned perturbations typically originate from a uniform distribution and lack
clear semantic details, resulting in unintended responses. This critical
absence of semantic information leads commercial LVLMs to either ignore the
perturbation entirely or misinterpret its embedded semantics, thereby causing
the attack to fail. To overcome these issues, we notice that identifying core
semantic objects is a key objective for models trained with various datasets
and methodologies. This insight motivates our approach that refines semantic
clarity by encoding explicit semantic details within local regions, thus
ensuring interoperability and capturing finer-grained features, and by
concentrating modifications on semantically rich areas rather than applying
them uniformly. To achieve this, we propose a simple yet highly effective
solution: at each optimization step, the adversarial image is cropped randomly
by a controlled aspect ratio and scale, resized, and then aligned with the
target image in the embedding space. Experimental results confirm our
hypothesis. Our adversarial examples crafted with local-aggregated
perturbations focused on crucial regions exhibit surprisingly good
transferability to commercial LVLMs, including GPT-4.5, GPT-4o,
Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning
models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach
achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly
outperforming all prior state-of-the-art attack methods. Our optimized
adversarial examples under different configurations and training code are
available at https://github.com/VILA-Lab/M-Attack.Summary
AI-Generated Summary