ChatPaper.aiChatPaper

Peu de Tokens Comptent : Attaques Guidées par l'Entropie sur les Modèles Vision-Langage

Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

December 26, 2025
papers.authors: Mengqi He, Xinyu Tian, Xin Shen, Jinhong Ni, Shu Zou, Zhaoyuan Yang, Jing Zhang
cs.AI

papers.abstract

Les modèles vision-langage (VLM) atteignent des performances remarquables mais restent vulnérables aux attaques adverses. L'entropie, mesure de l'incertitude du modèle, est fortement corrélée à la fiabilité des VLM. Les attaques antérieures basées sur l'entropie maximisent l'incertitude à toutes les étapes de décodage, supposant implicitement que chaque token contribue également à l'instabilité de la génération. Nous démontrons plutôt qu'une petite fraction (environ 20%) de tokens à haute entropie, c'est-à-dire des points de décision critiques dans la génération autorégressive, détermine de manière disproportionnée les trajectoires de sortie. En concentrant les perturbations adverses sur ces positions, nous obtenons une dégradation sémantique comparable aux méthodes globales avec des budgets considérablement réduits. Plus important encore, sur plusieurs VLM représentatifs, ces attaques sélectives convertissent 35 à 49% des sorties bénignes en contenus nuisibles, révélant un risque de sécurité plus critique. Fait remarquable, ces bifurcations vulnérables à haute entropie se reproduisent sur des VLM architecturalement divers, permettant une transférabilité réalisable (17-26% de taux nuisible sur des cibles non vues). Motivés par ces résultats, nous proposons les attaques adverses guidées par une banque d'entropie (EGA), qui atteint des taux de réussite compétitifs (93-95%) tout en obtenant une conversion nuisible élevée, révélant ainsi de nouvelles faiblesses dans les mécanismes de sécurité actuels des VLM.
English
Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.
PDF151January 10, 2026