Attacco Multifaccettato: Esposizione delle Vulnerabilità Cross-Model nei Modelli Linguaggio-Visione con Meccanismi di Difesa
Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models
November 20, 2025
Autori: Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu
cs.AI
Abstract
Il crescente uso improprio dei Modelli Visione-Linguaggio (VLM) ha spinto i fornitori a implementare molteplici salvaguardie, tra cui allineamento tramite tuning, prompt di sistema e moderazione dei contenuti. Tuttavia, la robustezza nel mondo reale di queste difese contro attacchi avversari rimane poco esplorata. Introduciamo Multi-Faceted Attack (MFA), un framework che espone sistematicamente vulnerabilità generali di sicurezza nei principali VLM dotati di difese, come GPT-4o, Gemini-Pro e Llama-4. Il componente centrale di MFA è l'Attention-Transfer Attack (ATA), che nasconde istruzioni dannose all'interno di un meta-compito con obiettivi in competizione. Forniamo una prospettiva teorica basata sul reward hacking per spiegare il successo di questo attacco. Per migliorare la trasferibilità cross-modello, introduciamo inoltre un algoritmo leggero di potenziamento del trasferimento combinato con una semplice strategia di ripetizione che bypassa congiuntamente sia i filtri a livello di input che di output senza un fine-tuning specifico per modello. Empiricamente, dimostriamo che immagini avversarie ottimizzate per un encoder visivo si trasferiscono ampiamente a VLM non visti, indicando che le rappresentazioni visive condivise creano una vulnerabilità di sicurezza cross-modello. Nel complesso, MFA raggiunge un tasso di successo del 58,5% e supera costantemente i metodi esistenti. Sui modelli commerciali allo stato dell'arte, MFA raggiunge un tasso di successo del 52,8%, superando il secondo miglior attacco del 34%. Questi risultati mettono in discussione la robustezza percepita degli attuali meccanismi di difesa ed evidenziano persistenti debolezze di sicurezza nei VLM moderni. Codice: https://github.com/cure-lab/MultiFacetedAttack
English
The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack