ChatPaper.aiChatPaper

Meervoudige Aanval: Blootleggen van Kwetsbaarheden tussen Modellen in Beveiligde Visueel-Taalmodellen

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

November 20, 2025
Auteurs: Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu
cs.AI

Samenvatting

Het groeiende misbruik van Vision-Language Models (VLMs) heeft ertoe geleid dat aanbieders meerdere veiligheidsmaatregelen hebben geïmplementeerd, zoals alignment-tuning, systeemprompts en contentmoderatie. De robuustheid van deze verdedigingsmechanismen in de praktijk tegen adversariële aanvallen blijft echter onderbelicht. Wij introduceren de Multi-Faceted Attack (MFA), een raamwerk dat systematisch algemene veiligheidskwetsbaarheden blootlegt in toonaangevende VLMs met verdedigingsmechanismen, zoals GPT-4o, Gemini-Pro en Llama-4. De kerncomponent van MFA is de Attention-Transfer Attack (ATA), die schadelijke instructies verbergt in een metataak met concurrerende doelstellingen. Wij bieden een theoretisch perspectief gebaseerd op reward hacking om te verklaren waarom deze aanval slaagt. Om de overdraagbaarheid tussen modellen te verbeteren, introduceren we verder een lichtgewicht transfer-verbeteringsalgoritme gecombineerd met een eenvoudige herhalingsstrategie die gezamenlijk zowel invoer- als uitvoerfilters omzeilt zonder modelspecifieke fine-tuning. Empirisch tonen we aan dat adversariële afbeeldingen geoptimaliseerd voor één vision-encoder breed overdraagbaar zijn naar onbekende VLMs, wat aangeeft dat gedeelde visuele representaties een veiligheidskwetsbaarheid tussen modellen creëren. Over het algemeen behaalt MFA een slagingspercentage van 58,5% en presteert het consistent beter dan bestaande methoden. Op state-of-the-art commerciële modellen bereikt MFA een slagingspercentage van 52,8%, wat 34% hoger is dan de op één na beste aanval. Deze resultaten trekken de vermeende robuustheid van huidige verdedigingsmechanismen in twijfel en benadrukken hardnekkige veiligheidszwakheden in moderne VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
English
The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
PDF12December 1, 2025