Pocos Tokens Importan: Ataques Guiados por Entropía a Modelos de Visión y Lenguaje
Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models
December 26, 2025
Autores: Mengqi He, Xinyu Tian, Xin Shen, Jinhong Ni, Shu Zou, Zhaoyuan Yang, Jing Zhang
cs.AI
Resumen
Los modelos deíndole visual-lingüística (VLM, por sus siglas en inglés) logran un rendimiento notable, pero siguen siendo vulnerables a los ataques adversarios. La entropía, una medida de la incertidumbre del modelo, está fuertemente correlacionada con la confiabilidad de los VLM. Los ataques adversarios previos basados en entropía maximizan la incertidumbre en todos los pasos de decodificación, asumiendo implícitamente que cada *token* contribuye por igual a la inestabilidad de la generación. En cambio, demostramos que una pequeña fracción (aproximadamente el 20%) de *tokens* de alta entropía, es decir, puntos de decisión críticos en la generación autoregresiva, gobierna de manera desproporcionada las trayectorias de salida. Al concentrar las perturbaciones adversarias en estas posiciones, logramos una degradación semántica comparable a los métodos globales mientras utilizamos presupuestos sustancialmente más pequeños. Más importante aún, en múltiples VLM representativos, tales ataques selectivos convierten entre el 35% y el 49% de las salidas benignas en salidas dañinas, exponiendo un riesgo de seguridad más crítico. Notablemente, estas bifurcaciones vulnerables de alta entropía se repiten en VLM arquitectónicamente diversos, permitiendo una transferibilidad factible (tasas de conversión a dañinas del 17-26% en objetivos no vistos). Motivados por estos hallazgos, proponemos los Ataques Adversarios Guiados por Banco de Entropía (EGA), que logra tasas de éxito de ataque competitivas (93-95%) junto con una alta conversión a contenido dañino, revelando así nuevas debilidades en los mecanismos de seguridad de los VLM actuales.
English
Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.