JPRO: Automatisiertes multimodales Jailbreaking über ein Multi-Agenten-Kollaborationsframework

Zusammenfassung

Die weitverbreitete Anwendung großer VLMs (Vision-Language Models) macht die Sicherstellung ihrer sicheren Bereitstellung von entscheidender Bedeutung. Während neuere Studien Jailbreak-Angriffe auf VLMs demonstriert haben, sind bestehende Ansätze begrenzt: Sie erfordern entweder White-Box-Zugriff, was die Praktikabilität einschränkt, oder stützen sich auf manuell erstellte Muster, was zu geringer Probenvielfalt und Skalierbarkeit führt. Um diese Lücken zu schließen, schlagen wir JPRO vor, ein neuartiges Multi-Agenten-Kollaborationsframework, das für die automatisierte Jailbreaking von VLMs entwickelt wurde. Es überwindet effektiv die Schwächen früherer Methoden in Bezug auf Angriffsvielfalt und Skalierbarkeit. Durch die koordinierte Aktion von vier spezialisierten Agenten und seinen beiden Kernmodulen – Tactic-Driven Seed Generation und Adaptive Optimization Loop – generiert JPRO effektive und vielfältige Angriffsproben. Experimentelle Ergebnisse zeigen, dass JPRO eine Angriffserfolgsrate von über 60 % auf mehrere fortschrittliche VLMs, einschließlich GPT-4o, erreicht und damit bestehende Methoden deutlich übertrifft. Als Black-Box-Angriffsansatz deckt JPRO nicht nur kritische Sicherheitslücken in multimodalen Modellen auf, sondern bietet auch wertvolle Einblicke für die Bewertung und Verbesserung der Robustheit von VLMs.

English

The widespread application of large VLMs makes ensuring their secure deployment critical. While recent studies have demonstrated jailbreak attacks on VLMs, existing approaches are limited: they require either white-box access, restricting practicality, or rely on manually crafted patterns, leading to poor sample diversity and scalability. To address these gaps, we propose JPRO, a novel multi-agent collaborative framework designed for automated VLM jailbreaking. It effectively overcomes the shortcomings of prior methods in attack diversity and scalability. Through the coordinated action of four specialized agents and its two core modules: Tactic-Driven Seed Generation and Adaptive Optimization Loop, JPRO generates effective and diverse attack samples. Experimental results show that JPRO achieves over a 60\% attack success rate on multiple advanced VLMs, including GPT-4o, significantly outperforming existing methods. As a black-box attack approach, JPRO not only uncovers critical security vulnerabilities in multimodal models but also offers valuable insights for evaluating and enhancing VLM robustness.

JPRO: Automatisiertes multimodales Jailbreaking über ein Multi-Agenten-Kollaborationsframework

JPRO: Automated Multimodal Jailbreaking via Multi-Agent Collaboration Framework

Zusammenfassung

Support