Poucos Tokens Importam: Ataques Guiados por Entropia em Modelos de Visão e Linguagem

Resumo

Os modelos visão-linguagem (VLMs) alcançam desempenho notável, mas permanecem vulneráveis a ataques adversariais. A entropia, uma medida da incerteza do modelo, está fortemente correlacionada com a confiabilidade dos VLMs. Ataques anteriores baseados em entropia maximizam a incerteza em todas as etapas de decodificação, assumindo implicitamente que cada token contribui igualmente para a instabilidade da geração. Nós demonstramos, em vez disso, que uma pequena fração (cerca de 20%) de tokens de alta entropia, ou seja, pontos de decisão críticos na geração autoregressiva, governa desproporcionalmente as trajetórias de saída. Ao concentrar perturbações adversariais nessas posições, alcançamos degradação semântica comparável aos métodos globais, utilizando orçamentos substancialmente menores. Mais importante ainda, em múltiplos VLMs representativos, tais ataques seletivos convertem 35-49% das saídas benignas em prejudiciais, expondo um risco de segurança mais crítico. Notavelmente, essas bifurcações vulneráveis de alta entropia recorrem em VLMs arquitetonicamente diversos, permitindo uma transferibilidade viável (taxas de conteúdo prejudicial de 17-26% em alvos não vistos). Motivados por essas descobertas, propomos Ataques Adversariais Guiados por Banco de Entropia (EGA), que alcança taxas de sucesso de ataque competitivas (93-95%) juntamente com alta conversão para conteúdo prejudicial, revelando assim novas fragilidades nos mecanismos de segurança dos VLMs atuais.

English

Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.

Poucos Tokens Importam: Ataques Guiados por Entropia em Modelos de Visão e Linguagem

Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

Resumo

Support