Ataque Multifacetado: Expondo Vulnerabilidades Transmodelo em Modelos de Visão e Linguagem com Mecanismos de Defesa

Resumo

O uso indevido crescente dos Modelos de Linguagem de Visão (VLMs) levou os provedores a implantarem múltiplas salvaguardas, incluindo ajuste de alinhamento, instruções de sistema e moderação de conteúdo. No entanto, a robustez no mundo real dessas defesas contra ataques adversariais permanece pouco explorada. Apresentamos o Ataque Multifacetado (MFA), uma estrutura que expõe sistematicamente vulnerabilidades gerais de segurança em VLMs líderes equipados com defesas, como GPT-4o, Gemini-Pro e Llama-4. O componente central do MFA é o Ataque de Transferência de Atenção (ATA), que esconde instruções maliciosas dentro de uma meta tarefa com objetivos concorrentes. Fornecemos uma perspectiva teórica baseada em "reward hacking" para explicar por que este ataque é bem-sucedido. Para melhorar a transferibilidade entre modelos, introduzimos ainda um algoritmo leve de aprimoramento de transferência combinado com uma simples estratégia de repetição que, em conjunto, contorna os filtros de entrada e de saída sem ajuste fino específico do modelo. Empiricamente, mostramos que imagens adversariais otimizadas para um codificador visual transferem-se amplamente para VLMs não vistos, indicando que representações visuais compartilhadas criam uma vulnerabilidade de segurança transversal aos modelos. No geral, o MFA atinge uma taxa de sucesso de 58,5% e supera consistentemente os métodos existentes. Em modelos comerciais de última geração, o MFA alcança uma taxa de sucesso de 52,8%, superando o segundo melhor ataque em 34%. Esses resultados desafiam a robustez percebida dos mecanismos de defesa atuais e destacam fraquezas persistentes de segurança nos VLMs modernos. Código: https://github.com/cure-lab/MultiFacetedAttack

English

The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack

Ataque Multifacetado: Expondo Vulnerabilidades Transmodelo em Modelos de Visão e Linguagem com Mecanismos de Defesa

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

Resumo

Support