ChatPaper.aiChatPaper

Wenige Tokens zählen: Entropiegeleitete Angriffe auf Vision-Language-Modelle

Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

December 26, 2025
papers.authors: Mengqi He, Xinyu Tian, Xin Shen, Jinhong Ni, Shu Zou, Zhaoyuan Yang, Jing Zhang
cs.AI

papers.abstract

Vision-Language-Models (VLMs) erzielen bemerkenswerte Leistungen, bleiben jedoch anfällig für adversariale Angriffe. Die Entropie, ein Maß für die Modellunsicherheit, korreliert stark mit der Zuverlässigkeit von VLMs. Bisherige entropiebasierte Angriffe maximieren die Unsicherheit in allen Decodierschritten und nehmen dabei implizit an, dass jeder Token gleichermaßen zur Generierungsinstabilität beiträgt. Wir zeigen stattdessen, dass ein kleiner Anteil (etwa 20 %) von Hoch-Entropie-Tokens, d.h. kritischen Entscheidungspunkten in der autoregressiven Generierung, die Ausgabepfade unverhältnismäßig stark steuert. Durch die Konzentration adversarialer Störungen auf diese Positionen erreichen wir eine semantische Verschlechterung, die mit globalen Methoden vergleichbar ist, bei deutlich geringerem Budget. Noch wichtiger ist, dass solche selektiven Angriffe bei mehreren repräsentativen VLMs 35–49 % der harmlosen Ausgaben in schädliche umwandeln und damit ein kritischeres Sicherheitsrisiko aufdecken. Bemerkenswerterweise treten diese anfälligen Hoch-Entropie-Verzweigungen architekturübergreifend bei verschiedenen VLMs auf und ermöglichen eine praktikable Übertragbarkeit (17–26 % schädliche Ausgaben auf unbekannten Zielmodellen). Aufbauend auf diesen Erkenntnissen schlagen wir Entropy-bank Guided Adversarial Attacks (EGA) vor, die wettbewerbsfähige Angriffserfolgsraten (93–95 %) bei gleichzeitig hoher Schadumwandlung erreichen und damit neue Schwachstellen in aktuellen VLM-Sicherheitsmechanismen aufdecken.
English
Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.
PDF151January 10, 2026