JPRO: Автоматизированный мультимодальный взлом через фреймворк многозадачного взаимодействия агентов

Аннотация

Широкое применение крупных моделей визуального языка (VLM) делает обеспечение их безопасного развертывания критически важным. Хотя недавние исследования продемонстрировали атаки на VLM с использованием методов jailbreak, существующие подходы имеют ограничения: они требуют либо доступа к "белому ящику", что снижает их практическую применимость, либо полагаются на ручное создание шаблонов, что приводит к низкому разнообразию и масштабируемости образцов. Для устранения этих недостатков мы предлагаем JPRO — новый многозадачный фреймворк, предназначенный для автоматизированного jailbreak VLM. Он эффективно преодолевает ограничения предыдущих методов в плане разнообразия атак и масштабируемости. Благодаря скоординированному взаимодействию четырех специализированных агентов и двух ключевых модулей — Tactic-Driven Seed Generation и Adaptive Optimization Loop — JPRO генерирует эффективные и разнообразные образцы атак. Результаты экспериментов показывают, что JPRO достигает успешности атак более 60% на нескольких передовых VLM, включая GPT-4o, значительно превосходя существующие методы. Как подход, основанный на атаках "черного ящика", JPRO не только выявляет критические уязвимости в мультимодальных моделях, но и предоставляет ценные инсайты для оценки и повышения устойчивости VLM.

English

The widespread application of large VLMs makes ensuring their secure deployment critical. While recent studies have demonstrated jailbreak attacks on VLMs, existing approaches are limited: they require either white-box access, restricting practicality, or rely on manually crafted patterns, leading to poor sample diversity and scalability. To address these gaps, we propose JPRO, a novel multi-agent collaborative framework designed for automated VLM jailbreaking. It effectively overcomes the shortcomings of prior methods in attack diversity and scalability. Through the coordinated action of four specialized agents and its two core modules: Tactic-Driven Seed Generation and Adaptive Optimization Loop, JPRO generates effective and diverse attack samples. Experimental results show that JPRO achieves over a 60\% attack success rate on multiple advanced VLMs, including GPT-4o, significantly outperforming existing methods. As a black-box attack approach, JPRO not only uncovers critical security vulnerabilities in multimodal models but also offers valuable insights for evaluating and enhancing VLM robustness.

JPRO: Автоматизированный мультимодальный взлом через фреймворк многозадачного взаимодействия агентов

JPRO: Automated Multimodal Jailbreaking via Multi-Agent Collaboration Framework

Аннотация

Support