ChatPaper.aiChatPaper

적은 토큰이 중요하다: 시각-언어 모델에 대한 엔트로피 기반 공격 기법

Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

December 26, 2025
저자: Mengqi He, Xinyu Tian, Xin Shen, Jinhong Ni, Shu Zou, Zhaoyuan Yang, Jing Zhang
cs.AI

초록

비전-언어 모델(VLM)은 뛰어난 성능을 달성했지만 여전히 적대적 공격에 취약합니다. 모델 불확실성의 측정치인 엔트로피는 VLM의 신뢰도와 강한 상관관계를 보입니다. 기존의 엔트로피 기반 공격은 모든 디코딩 단계에서 불확실성을 극대화하며, 모든 토큰이 생성 불안정성에 동등하게 기여한다는 것을 암묵적으로 가정했습니다. 그러나 우리는 자기회귀 생성 과정에서 중요한 의사 결정 지점인 소수(약 20%)의 고엔트로피 토큰이 출력 경로에 불균형적으로 큰 영향을 미친다는 것을 보여줍니다. 이러한 위치에 적대적 교란을 집중시킴으로써, 상당히 적은 예산을 사용하면서도 전역적 방법에 버금가는 의미론적 성능 저하를 달성합니다. 더 중요하게도, 여러 대표적인 VLM에서 이러한 선택적 공격은 양성 출력의 35-49%를 유해한 출력으로 전환하여 더 심각한 안전 위험을 드러냈습니다. 주목할 점은 이러한 취약한 고엔트로피 분기점이 구조적으로 다양한 VLM에서 반복적으로 나타나, 실현 가능한 전이성(보이지 않는 대상에 대해 17-26%의 유해율)을 가능하게 한다는 것입니다. 이러한 발견에 기반하여, 우리는 경쟁력 있는 공격 성공률(93-95%)과 높은 유해 전환율을 동시에 달성하는 Entropy-bank Guided Adversarial attacks (EGA)를 제안하며, 이를 통해 현재 VLM 안전 메커니즘의 새로운 취약점을 밝혀냅니다.
English
Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.
PDF151January 10, 2026