Разочаровывающе простая, но чрезвычайно эффективная базовая атака: более 90% успеха против мощных черно-ящичных моделей GPT-4.5/4o/o1.
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
March 13, 2025
Авторы: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
cs.AI
Аннотация
Несмотря на впечатляющие результаты открытых крупных моделей обработки визуальной и языковой информации (LVLM), атаки с использованием переноса часто оказываются неудачными против коммерческих LVLM с закрытой архитектурой. Анализ неудачных адверсарных возмущений показывает, что изученные возмущения обычно происходят из равномерного распределения и лишены четких семантических деталей, что приводит к нежелательным ответам. Это критическое отсутствие семантической информации заставляет коммерческие LVLM либо полностью игнорировать возмущение, либо неправильно интерпретировать его встроенную семантику, что приводит к провалу атаки. Чтобы преодолеть эти проблемы, мы замечаем, что идентификация ключевых семантических объектов является основной задачей для моделей, обученных на различных наборах данных и с использованием различных методик. Это наблюдение мотивирует наш подход, который улучшает семантическую ясность путем кодирования явных семантических деталей в локальных областях, обеспечивая совместимость и захват более тонких признаков, а также сосредотачивая изменения на семантически насыщенных областях, а не применяя их равномерно. Для достижения этого мы предлагаем простое, но высокоэффективное решение: на каждом шаге оптимизации адверсарное изображение случайным образом обрезается с контролируемым соотношением сторон и масштабом, изменяется в размере, а затем выравнивается с целевым изображением в пространстве встраивания. Экспериментальные результаты подтверждают нашу гипотезу. Наши адверсарные примеры, созданные с использованием локально-агрегированных возмущений, сфокусированных на ключевых областях, демонстрируют удивительно хорошую переносимость на коммерческие LVLM, включая GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet и даже модели рассуждений, такие как o1, Claude-3.7-thinking и Gemini-2.0-flash-thinking. Наш подход достигает успешности более 90% на GPT-4.5, 4o и o1, значительно превосходя все предыдущие передовые методы атак. Наши оптимизированные адверсарные примеры при различных конфигурациях и код обучения доступны по адресу https://github.com/VILA-Lab/M-Attack.
English
Despite promising performance on open-source large vision-language models
(LVLMs), transfer-based targeted attacks often fail against black-box
commercial LVLMs. Analyzing failed adversarial perturbations reveals that the
learned perturbations typically originate from a uniform distribution and lack
clear semantic details, resulting in unintended responses. This critical
absence of semantic information leads commercial LVLMs to either ignore the
perturbation entirely or misinterpret its embedded semantics, thereby causing
the attack to fail. To overcome these issues, we notice that identifying core
semantic objects is a key objective for models trained with various datasets
and methodologies. This insight motivates our approach that refines semantic
clarity by encoding explicit semantic details within local regions, thus
ensuring interoperability and capturing finer-grained features, and by
concentrating modifications on semantically rich areas rather than applying
them uniformly. To achieve this, we propose a simple yet highly effective
solution: at each optimization step, the adversarial image is cropped randomly
by a controlled aspect ratio and scale, resized, and then aligned with the
target image in the embedding space. Experimental results confirm our
hypothesis. Our adversarial examples crafted with local-aggregated
perturbations focused on crucial regions exhibit surprisingly good
transferability to commercial LVLMs, including GPT-4.5, GPT-4o,
Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning
models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach
achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly
outperforming all prior state-of-the-art attack methods. Our optimized
adversarial examples under different configurations and training code are
available at https://github.com/VILA-Lab/M-Attack.Summary
AI-Generated Summary