Una línea de base de ataque frustrantemente simple pero altamente efectiva: Más del 90% de tasa de éxito contra los modelos de caja negra robustos de GPT-4.5/4o/o1.
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
March 13, 2025
Autores: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
cs.AI
Resumen
A pesar del rendimiento prometedor de los modelos grandes de visión y lenguaje (LVLMs) de código abierto, los ataques dirigidos basados en transferencia a menudo fallan contra los LVLMs comerciales de caja negra. El análisis de las perturbaciones adversarias fallidas revela que las perturbaciones aprendidas suelen originarse de una distribución uniforme y carecen de detalles semánticos claros, lo que resulta en respuestas no deseadas. Esta ausencia crítica de información semántica lleva a los LVLMs comerciales a ignorar por completo la perturbación o a malinterpretar su semántica incrustada, causando así el fracaso del ataque. Para superar estos problemas, observamos que identificar objetos semánticos clave es un objetivo principal para los modelos entrenados con diversos conjuntos de datos y metodologías. Esta idea motiva nuestro enfoque, que refina la claridad semántica codificando detalles semánticos explícitos dentro de regiones locales, asegurando así la interoperabilidad y capturando características más detalladas, y concentrando las modificaciones en áreas semánticamente ricas en lugar de aplicarlas de manera uniforme. Para lograrlo, proponemos una solución simple pero altamente efectiva: en cada paso de optimización, la imagen adversaria se recorta aleatoriamente con una relación de aspecto y escala controladas, se redimensiona y luego se alinea con la imagen objetivo en el espacio de incrustación. Los resultados experimentales confirman nuestra hipótesis. Nuestros ejemplos adversarios creados con perturbaciones agregadas localmente y enfocadas en regiones cruciales exhiben una sorprendente buena transferibilidad a LVLMs comerciales, incluyendo GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, e incluso modelos de razonamiento como o1, Claude-3.7-thinking y Gemini-2.0-flash-thinking. Nuestro enfoque alcanza tasas de éxito superiores al 90% en GPT-4.5, 4o y o1, superando significativamente todos los métodos de ataque anteriores de última generación. Nuestros ejemplos adversarios optimizados bajo diferentes configuraciones y el código de entrenamiento están disponibles en https://github.com/VILA-Lab/M-Attack.
English
Despite promising performance on open-source large vision-language models
(LVLMs), transfer-based targeted attacks often fail against black-box
commercial LVLMs. Analyzing failed adversarial perturbations reveals that the
learned perturbations typically originate from a uniform distribution and lack
clear semantic details, resulting in unintended responses. This critical
absence of semantic information leads commercial LVLMs to either ignore the
perturbation entirely or misinterpret its embedded semantics, thereby causing
the attack to fail. To overcome these issues, we notice that identifying core
semantic objects is a key objective for models trained with various datasets
and methodologies. This insight motivates our approach that refines semantic
clarity by encoding explicit semantic details within local regions, thus
ensuring interoperability and capturing finer-grained features, and by
concentrating modifications on semantically rich areas rather than applying
them uniformly. To achieve this, we propose a simple yet highly effective
solution: at each optimization step, the adversarial image is cropped randomly
by a controlled aspect ratio and scale, resized, and then aligned with the
target image in the embedding space. Experimental results confirm our
hypothesis. Our adversarial examples crafted with local-aggregated
perturbations focused on crucial regions exhibit surprisingly good
transferability to commercial LVLMs, including GPT-4.5, GPT-4o,
Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning
models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach
achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly
outperforming all prior state-of-the-art attack methods. Our optimized
adversarial examples under different configurations and training code are
available at https://github.com/VILA-Lab/M-Attack.Summary
AI-Generated Summary