Pochi Token Contano: Attacchi Guidati dall'Entropia ai Modelli Visione-Linguaggio

Abstract

I modelli visione-linguaggio (VLM) raggiungono prestazioni notevoli ma rimangono vulnerabili ad attacchi adversariali. L'entropia, una misura dell'incertezza del modello, è fortemente correlata con l'affidabilità dei VLM. I precedenti attacchi basati sull'entropia massimizzano l'incertezza in tutti i passi di decodifica, assumendo implicitamente che ogni token contribuisca equamente all'instabilità della generazione. Al contrario, dimostriamo che una piccola frazione (circa il 20%) di token ad alta entropia, ovvero punti critici di decisione nella generazione autoregressiva, governa in modo sproporzionato le traiettorie di output. Concentrando le perturbazioni adversariali su queste posizioni, otteniamo un degrado semantico comparabile ai metodi globali utilizzando budget sostanzialmente inferiori. Ancora più importante, su molteplici VLM rappresentativi, tali attacchi selettivi convertono il 35-49% degli output benigni in dannosi, esponendo un rischio per la sicurezza più critico. Notevolmente, queste diramazioni vulnerabili ad alta entropia si ripresentano in VLM architetturalmente diversi, abilitando una trasferibilità fattibile (tassi dannosi del 17-26% su target non visti). Motivati da questi risultati, proponiamo gli attacchi adversariali guidati da Entropy-bank (EGA), che raggiungono tassi di successo d'attacco competitivi (93-95%) insieme ad un'alta conversione dannosa, rivelando così nuove debolezze negli attuali meccanismi di sicurezza dei VLM.

English

Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.

Pochi Token Contano: Attacchi Guidati dall'Entropia ai Modelli Visione-Linguaggio

Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

Abstract

Support