Mehrdimensionale Angriffe: Aufdeckung von modellübergreifenden Schwachstellen in geschützten Bild-Sprach-Modellen
Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models
November 20, 2025
papers.authors: Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu
cs.AI
papers.abstract
Die zunehmende Fehlanwendung von Vision-Sprache-Modellen (VLMs) hat Anbieter dazu veranlasst, verschiedene Sicherheitsvorkehrungen zu implementieren, darunter Alignment-Tuning, System-Prompts und Inhaltsmoderation. Die reale Robustheit dieser Verteidigungsmechanismen gegen adversarielle Angriffe bleibt jedoch unzureichend erforscht. Wir stellen Multi-Faceted Attack (MFA) vor, ein Framework, das systematisch allgemeine Sicherheitslücken in führenden, geschützten VLMs wie GPT-4o, Gemini-Pro und Llama-4 aufdeckt. Die Kernkomponente von MFA ist der Attention-Transfer Attack (ATA), der schädliche Anweisungen innerhalb einer Meta-Aufgabe mit konkurrierenden Zielen verbirgt. Wir liefern eine theoretische Perspektive auf Basis von Reward Hacking, um den Erfolg dieses Angriffs zu erklären. Um die übergreifende Transferierbarkeit zwischen Modellen zu verbessern, führen wir einen leichtgewichtigen Transfer-Verbesserungsalgorithmus ein, kombiniert mit einer einfachen Wiederholungsstrategie, die gemeinsam sowohl Eingabe- als auch Ausgabefilter ohne modellspezifisches Fine-Tuning umgeht. Empirisch zeigen wir, dass für einen Vision-Encoder optimierte adversarielle Bilder breit auf unbekannte VLMs übertragbar sind, was darauf hindeutet, dass gemeinsame visuelle Repräsentationen eine modellübergreifende Sicherheitslücke schaffen. Insgesamt erzielt MFA eine Erfolgsrate von 58,5 % und übertrifft konsistent bestehende Methoden. Bei modernsten kommerziellen Modellen erreicht MFA eine Erfolgsrate von 52,8 % und übertrifft den zweitbesten Angriff um 34 %. Diese Ergebnisse stellen die wahrgenommene Robustheit aktueller Verteidigungsmechanismen in Frage und verdeutlichen anhaltende Sicherheitsschwächen in modernen VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
English
The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack