ChatPaper.aiChatPaper

Attaque Multidimensionnelle : Exposition des Vulnérabilités Transmodèles dans les Modèles Vision-Langue Équipés de Défenses

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

November 20, 2025
papers.authors: Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu
cs.AI

papers.abstract

L'utilisation abusive croissante des modèles vision-langage (VLM) a conduit les fournisseurs à déployer diverses mesures de protection, incluant l'alignement par fine-tuning, les prompts système et la modération de contenu. Cependant, la robustesse réelle de ces défenses face aux attaques adverses reste peu explorée. Nous présentons Multi-Faceted Attack (MFA), un cadre qui expose systématiquement les vulnérabilités générales de sécurité dans les VLM de pointe équipés de défenses, tels que GPT-4o, Gemini-Pro et Llama-4. Le composant central de MFA est l'Attaque par Transfert d'Attention (ATA), qui dissimule des instructions nuisibles dans une méta-tâche avec des objectifs concurrents. Nous fournissons une perspective théorique basée sur le détournement de récompense pour expliquer pourquoi cette attaque réussit. Pour améliorer la transférabilité inter-modèles, nous introduisons en outre un algorithme léger d'amélioration du transfert combiné à une simple stratégie de répération qui contourne conjointement les filtres au niveau de l'entrée et de la sortie sans fine-tuning spécifique au modèle. Empiriquement, nous montrons que les images adverses optimisées pour un encodeur visuel se transfèrent largement à des VLM non vus, indiquant que les représentations visuelles partagées créent une vulnérabilité de sécurité transmodèle. Globalement, MFA atteint un taux de réussite de 58,5 % et surpasse constamment les méthodes existantes. Sur les modèles commerciaux les plus avancés, MFA atteint un taux de réussite de 52,8 %, dépassant la deuxième meilleure attaque de 34 %. Ces résultats remettent en cause la robustesse perçue des mécanismes de défense actuels et mettent en lumière des faiblesses de sécurité persistantes dans les VLM modernes. Code : https://github.com/cure-lab/MultiFacetedAttack
English
The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
PDF12December 1, 2025