ChatPaper.aiChatPaper

Ataque Multifacético: Exponiendo Vulnerabilidades Transmodelo en Modelos de Visión y Lenguaje Equipados con Defensas

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

November 20, 2025
Autores: Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu
cs.AI

Resumen

El creciente uso indebido de los Modelos de Visión y Lenguaje (VLMs) ha llevado a los proveedores a implementar múltiples salvaguardas, como ajuste de alineación, indicaciones de sistema y moderación de contenido. Sin embargo, la solidez en el mundo real de estas defensas frente a ataques adversarios sigue estando poco explorada. Presentamos Multi-Faceted Attack (MFA), un marco que expone sistemáticamente vulnerabilidades generales de seguridad en VLMs líderes equipados con defensas, como GPT-4o, Gemini-Pro y Llama-4. El componente central de MFA es el Ataque de Transferencia de Atención (ATA), que oculta instrucciones nocivas dentro de una meta-tarea con objetivos en competencia. Ofrecemos una perspectiva teórica basada en la manipulación de recompensas para explicar por qué este ataque tiene éxito. Para mejorar la transferibilidad entre modelos, introducimos además un algoritmo liviano de mejora de transferencia combinado con una simple estrategia de repetición que conjuntamente elude tanto los filtros a nivel de entrada como de salida, sin necesidad de ajuste específico por modelo. Empíricamente, demostramos que las imágenes adversarias optimizadas para un codificador visual se transfieren ampliamente a VLMs no vistos, lo que indica que las representaciones visuales compartidas crean una vulnerabilidad de seguridad transversal. En general, MFA logra una tasa de éxito del 58,5% y supera consistentemente a los métodos existentes. En modelos comerciales de última generación, MFA alcanza una tasa de éxito del 52,8%, superando al segundo mejor ataque en un 34%. Estos resultados desafían la solidez percibida de los mecanismos de defensa actuales y destacan debilidades persistentes en la seguridad de los VLMs modernos. Código: https://github.com/cure-lab/MultiFacetedAttack
English
The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
PDF12December 1, 2025