Eine frustrierend einfache, aber äußerst effektive Angriffsgrundlage: Über 90% Erfolgsrate gegen die starken Black-Box-Modelle von GPT-4.5/4o/o1.
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
March 13, 2025
Autoren: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
cs.AI
Zusammenfassung
Trotz vielversprechender Leistungen bei Open-Source-Modellen für große visuell-sprachliche Modelle (LVLMs) scheitern transferbasierte gezielte Angriffe häufig bei kommerziellen Black-Box-LVLMs. Die Analyse gescheiterter adversarieller Perturbationen zeigt, dass die erlernten Perturbationen typischerweise aus einer gleichmäßigen Verteilung stammen und klare semantische Details vermissen, was zu unerwünschten Reaktionen führt. Dieses kritische Fehlen semantischer Informationen führt dazu, dass kommerzielle LVLMs die Perturbation entweder vollständig ignorieren oder die eingebettete Semantik falsch interpretieren, wodurch der Angriff scheitert. Um diese Probleme zu überwinden, stellen wir fest, dass die Identifizierung von Kernsemantikobjekten ein zentrales Ziel für Modelle ist, die mit verschiedenen Datensätzen und Methoden trainiert wurden. Diese Erkenntnis motiviert unseren Ansatz, der die semantische Klarheit verbessert, indem explizite semantische Details in lokalen Regionen kodiert werden, wodurch Interoperabilität sichergestellt und feinere Merkmale erfasst werden, und indem Modifikationen auf semantisch reiche Bereiche konzentriert werden, anstatt sie gleichmäßig anzuwenden. Um dies zu erreichen, schlagen wir eine einfache, aber äußerst effektive Lösung vor: In jedem Optimierungsschritt wird das adversarielle Bild zufällig mit einem kontrollierten Seitenverhältnis und Maßstab beschnitten, skaliert und dann im Einbettungsraum mit dem Zielbild ausgerichtet. Experimentelle Ergebnisse bestätigen unsere Hypothese. Unsere adversariellen Beispiele, die mit lokal aggregierten Perturbationen erstellt wurden, die sich auf entscheidende Regionen konzentrieren, zeigen eine überraschend gute Übertragbarkeit auf kommerzielle LVLMs, einschließlich GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet und sogar Denkmodelle wie o1, Claude-3.7-thinking und Gemini-2.0-flash-thinking. Unser Ansatz erreicht Erfolgsraten von über 90 % bei GPT-4.5, 4o und o1 und übertrifft damit alle bisherigen state-of-the-art Angriffsmethoden deutlich. Unsere optimierten adversariellen Beispiele unter verschiedenen Konfigurationen und Trainingscode sind verfügbar unter https://github.com/VILA-Lab/M-Attack.
English
Despite promising performance on open-source large vision-language models
(LVLMs), transfer-based targeted attacks often fail against black-box
commercial LVLMs. Analyzing failed adversarial perturbations reveals that the
learned perturbations typically originate from a uniform distribution and lack
clear semantic details, resulting in unintended responses. This critical
absence of semantic information leads commercial LVLMs to either ignore the
perturbation entirely or misinterpret its embedded semantics, thereby causing
the attack to fail. To overcome these issues, we notice that identifying core
semantic objects is a key objective for models trained with various datasets
and methodologies. This insight motivates our approach that refines semantic
clarity by encoding explicit semantic details within local regions, thus
ensuring interoperability and capturing finer-grained features, and by
concentrating modifications on semantically rich areas rather than applying
them uniformly. To achieve this, we propose a simple yet highly effective
solution: at each optimization step, the adversarial image is cropped randomly
by a controlled aspect ratio and scale, resized, and then aligned with the
target image in the embedding space. Experimental results confirm our
hypothesis. Our adversarial examples crafted with local-aggregated
perturbations focused on crucial regions exhibit surprisingly good
transferability to commercial LVLMs, including GPT-4.5, GPT-4o,
Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning
models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach
achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly
outperforming all prior state-of-the-art attack methods. Our optimized
adversarial examples under different configurations and training code are
available at https://github.com/VILA-Lab/M-Attack.Summary
AI-Generated Summary