다각적 공격: 방어 기법을 갖춘 시각-언어 모델의 교차 모델 취약점 분석
Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models
November 20, 2025
저자: Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu
cs.AI
초록
비전-언어 모델(VLM)의 오용이 증가함에 따라 제공업체들은 정렬 튜닝, 시스템 프롬프트, 콘텐츠 조정 등 다양한 안전장치를 도입하고 있습니다. 그러나 적대적 공격에 대항한 이러한 방어 메커니즘의 실제 강건성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 GPT-4o, Gemini-Pro, Llama-4와 같은 최신 방어 장치를 갖춘 선도적인 VLM에서 일반적인 안전 취약점을 체계적으로 드러내는 프레임워크인 다면적 공격(MFA)을 소개합니다. MFA의 핵심 구성 요소는 상충되는 목표를 가진 메타 작업 내에 유해한 지시를 숨기는 주의 전이 공격(ATA)입니다. 우리는 이 공격이 성공하는 이유를 설명하기 위해 보상 해킹에 기반한 이론적 관점을 제시합니다. 또한 교차 모델 전이성을 향상시키기 위해, 모델별 미세 조정 없이 입력 수준 및 출력 수준 필터를 모두 우회하는 경량화된 전이 강화 알고리즘과 단순 반복 전략을 결합했습니다. 실험적으로, 하나의 비전 인코더에 대해 최적화된 적대적 이미지가 보이지 않는 VLM으로 광범위하게 전이됨을 보여주며, 이는 공유된 시각 표현이 교차 모델 안전 취약점을 생성함을 시사합니다. 전체적으로 MFA는 58.5%의 성공률을 달성하며 기존 방법들을 일관되게 능가했습니다. 최신 상용 모델에서 MFA는 52.8%의 성공률에 도달하여 두 번째로 우수한 공격 대비 34% 높은 성과를 보였습니다. 이러한 결과는 현재 방어 메커니즘의 인식된 강건성에 의문을 제기하며 현대 VLM의 지속적인 안전 취약점을 부각시킵니다. 코드: https://github.com/cure-lab/MultiFacetedAttack
English
The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack