ChatPaper.aiChatPaper

Многогранная атака: выявление межмодельных уязвимостей в оснащенных защитой визуально-языковых моделях

Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models

November 20, 2025
Авторы: Yijun Yang, Lichao Wang, Jianping Zhang, Chi Harold Liu, Lanqing Hong, Qiang Xu
cs.AI

Аннотация

Растущее злоупотребление моделями "визуальный язык" (VLM) вынуждает провайдеров внедрять различные защитные механизмы, включая тонкую настройку согласованности (alignment), системные промпты и модерацию контента. Однако реальная устойчивость этих защит к атакам противника остаётся малоизученной. Мы представляем Multi-Faceted Attack (MFA) — фреймворк, который систематически выявляет общие уязвимости безопасности в ведущих VLM с защитой, таких как GPT-4o, Gemini-Pro и Llama-4. Ключевым компонентом MFA является Attention-Transfer Attack (ATA), который скрывает вредоносные инструкции внутри мета-задачи с конкурирующими целями. Мы предлагаем теоретическое обоснование, основанное на взломе функции вознаграждения (reward hacking), чтобы объяснить успех данной атаки. Для повышения межмодельной переносимости мы дополнительно вводим облегчённый алгоритм усиления переносимости в сочетании с простой стратегией повторения, которые совместно обходят как входные, так и выходные фильтры без специфичной для модели тонкой настройки. Экспериментально мы показываем, что состязательные изображения, оптимизированные для одного визуального энкодера, успешно переносятся на неизвестные VLM, что указывает на то, что общие визуальные представления создают кросс-модельную уязвимость безопасности. В целом, MFA достигает успеха в 58,5% случаев и стабильно превосходит существующие методы. На передовых коммерческих моделях MFA демонстрирует уровень успеха 52,8%, превосходя вторую по эффективности атаку на 34%. Эти результаты ставят под сомнение предполагаемую устойчивость современных защитных механизмов и подчёркивают сохраняющиеся слабые места в безопасности современных VLM. Код: https://github.com/cure-lab/MultiFacetedAttack
English
The growing misuse of Vision-Language Models (VLMs) has led providers to deploy multiple safeguards, including alignment tuning, system prompts, and content moderation. However, the real-world robustness of these defenses against adversarial attacks remains underexplored. We introduce Multi-Faceted Attack (MFA), a framework that systematically exposes general safety vulnerabilities in leading defense-equipped VLMs such as GPT-4o, Gemini-Pro, and Llama-4. The core component of MFA is the Attention-Transfer Attack (ATA), which hides harmful instructions inside a meta task with competing objectives. We provide a theoretical perspective based on reward hacking to explain why this attack succeeds. To improve cross-model transferability, we further introduce a lightweight transfer-enhancement algorithm combined with a simple repetition strategy that jointly bypasses both input-level and output-level filters without model-specific fine-tuning. Empirically, we show that adversarial images optimized for one vision encoder transfer broadly to unseen VLMs, indicating that shared visual representations create a cross-model safety vulnerability. Overall, MFA achieves a 58.5% success rate and consistently outperforms existing methods. On state-of-the-art commercial models, MFA reaches a 52.8% success rate, surpassing the second-best attack by 34%. These results challenge the perceived robustness of current defense mechanisms and highlight persistent safety weaknesses in modern VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
PDF12December 1, 2025