ChatPaper.aiChatPaper

Малое количество токенов имеет значение: атаки на модели «визуальный язык-текст» с управлением по энтропии

Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

December 26, 2025
Авторы: Mengqi He, Xinyu Tian, Xin Shen, Jinhong Ni, Shu Zou, Zhaoyuan Yang, Jing Zhang
cs.AI

Аннотация

Модели «визуальный вход-текстовый выход» (VLM) демонстрируют выдающиеся результаты, но остаются уязвимыми для атак со стороны противника. Энтропия, являющаяся мерой неопределённости модели, сильно коррелирует с надёжностью VLM. Предыдущие атаки на основе энтропии максимизируют неопределённость на всех шагах декодирования, неявно предполагая, что каждый токен в равной степени способствует нестабильности генерации. Мы же показываем, что небольшая доля (около 20%) токенов с высокой энтропией, то есть критических точек принятия решений в авторегрессионной генерации, непропорционально сильно определяет траектории выходных данных. Сосредоточив адверсарные возмущения на этих позициях, мы достигаем семантической деградации, сопоставимой с глобальными методами, при использовании существенно меньшего бюджета. Что более важно, на множестве репрезентативных VLM такие избирательные атаки преобразуют 35–49% доброкачественных выводов во вредоносные, выявляя более серьёзный риск для безопасности. Примечательно, что эти уязвимые точки ветвления с высокой энтропией повторяются в архитектурно разнообразных VLM, что обеспечивает осуществимость переносимости (17–26% вредоносных результатов на неизвестных целевых моделях). Руководствуясь этими выводами, мы предлагаем метод атак со стороны противника с управлением по энтропийному банку (EGA), который достигает конкурентоспособных показателей успешности атак (93–95%) наряду с высоким процентом вредоносных преобразований, тем самым выявляя новые слабости в современных механизмах безопасности VLM.
English
Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.
PDF151January 10, 2026