Weinig Tokens Doen Ertoe: Entropie-gestuurde Aanvallen op Vision-Language Modellen

Samenvatting

Vision-language models (VLMs) behalen opmerkelijke prestaties, maar blijven kwetsbaar voor adversariële aanvallen. Entropie, een maatstaf voor modelonzekerheid, vertoont een sterke correlatie met de betrouwbaarheid van VLMs. Bestaande op entropie gebaseerde aanvallen maximaliseren de onzekerheid bij alle decoderingsstappen, in de impliciete veronderstelling dat elke token evenveel bijdraagt aan generatie-instabiliteit. Wij tonen daarentegen aan dat een kleine fractie (ongeveer 20%) van hoog-entropie tokens – kritieke beslissingspunten in autoregressieve generatie – de uitvoertrajectoren onevenredig sterk bepaalt. Door adversariële perturbaties op deze posities te concentreren, bereiken we een semantische degradatie vergelijkbaar met globale methoden, maar met aanzienlijk kleinere budgets. Belangrijker nog: bij meerdere representatieve VLMs zetten dergelijke selectieve aanvallen 35-49% van de goedaardige uitvoeren om in schadelijke, wat een kritieker veiligheidsrisico blootlegt. Opmerkelijk is dat deze kwetsbare hoog-entropie vertakkingen terugkeren bij architectonisch diverse VLMs, wat een haalbare transferabiliteit mogelijk maakt (17-26% schadelijke conversie bij onbekende doelen). Geïnspireerd door deze bevindingen stellen wij Entropy-bank Guided Adversarial attacks (EGA) voor, dat competitieve aanvalssuccespercentages (93-95%) combineert met hoge schadelijke conversie, waardoor nieuwe zwakheden in huidige VLM-veiligheidsmechanismen worden blootgelegd.

English

Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.

Weinig Tokens Doen Ertoe: Entropie-gestuurde Aanvallen op Vision-Language Modellen

Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

Samenvatting

Support