Een Frustrerend Eenvoudige maar Zeer Effectieve Aanvalsbasislijn: Meer dan 90% Succespercentage tegen de Sterke Black-box Modellen van GPT-4.5/4o/o1
A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
March 13, 2025
Auteurs: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen
cs.AI
Samenvatting
Ondanks veelbelovende prestaties van open-source grote visueel-taalmodelen (LVLMs), falen op overdracht gebaseerde gerichte aanvallen vaak tegen black-box commerciële LVLMs. Analyse van mislukte adversariële perturbaties laat zien dat de geleerde perturbaties meestal afkomstig zijn uit een uniforme verdeling en duidelijke semantische details missen, wat resulteert in onbedoelde reacties. Dit kritieke gebrek aan semantische informatie zorgt ervoor dat commerciële LVLMs de perturbatie ofwel volledig negeren of de ingebedde semantiek verkeerd interpreteren, waardoor de aanval mislukt. Om deze problemen te overwinnen, merken we op dat het identificeren van kernsemantische objecten een belangrijk doel is voor modellen die getraind zijn met verschillende datasets en methodologieën. Dit inzicht motiveert onze aanpak die de semantische duidelijkheid verfijnt door expliciete semantische details te coderen binnen lokale regio's, waardoor interoperabiliteit wordt gegarandeerd en fijnmazigere kenmerken worden vastgelegd, en door wijzigingen te concentreren op semantisch rijke gebieden in plaats van ze uniform toe te passen. Om dit te bereiken, stellen we een eenvoudige maar zeer effectieve oplossing voor: bij elke optimalisatiestap wordt de adversariële afbeelding willekeurig bijgesneden met een gecontroleerde aspectverhouding en schaal, herschaald en vervolgens uitgelijnd met de doelafbeelding in de embeddingruimte. Experimentele resultaten bevestigen onze hypothese. Onze adversariële voorbeelden, gemaakt met lokaal-geaggregeerde perturbaties gericht op cruciale regio's, vertonen verrassend goede overdraagbaarheid naar commerciële LVLMs, waaronder GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, en zelfs redeneermodellen zoals o1, Claude-3.7-thinking en Gemini-2.0-flash-thinking. Onze aanpak behaalt slagingspercentages van meer dan 90% op GPT-4.5, 4o en o1, wat aanzienlijk beter is dan alle voorgaande state-of-the-art aanvalsmethoden. Onze geoptimaliseerde adversariële voorbeelden onder verschillende configuraties en trainingscode zijn beschikbaar op https://github.com/VILA-Lab/M-Attack.
English
Despite promising performance on open-source large vision-language models
(LVLMs), transfer-based targeted attacks often fail against black-box
commercial LVLMs. Analyzing failed adversarial perturbations reveals that the
learned perturbations typically originate from a uniform distribution and lack
clear semantic details, resulting in unintended responses. This critical
absence of semantic information leads commercial LVLMs to either ignore the
perturbation entirely or misinterpret its embedded semantics, thereby causing
the attack to fail. To overcome these issues, we notice that identifying core
semantic objects is a key objective for models trained with various datasets
and methodologies. This insight motivates our approach that refines semantic
clarity by encoding explicit semantic details within local regions, thus
ensuring interoperability and capturing finer-grained features, and by
concentrating modifications on semantically rich areas rather than applying
them uniformly. To achieve this, we propose a simple yet highly effective
solution: at each optimization step, the adversarial image is cropped randomly
by a controlled aspect ratio and scale, resized, and then aligned with the
target image in the embedding space. Experimental results confirm our
hypothesis. Our adversarial examples crafted with local-aggregated
perturbations focused on crucial regions exhibit surprisingly good
transferability to commercial LVLMs, including GPT-4.5, GPT-4o,
Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning
models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach
achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly
outperforming all prior state-of-the-art attack methods. Our optimized
adversarial examples under different configurations and training code are
available at https://github.com/VILA-Lab/M-Attack.Summary
AI-Generated Summary