JPRO : Contournement automatisé multimodal via un cadre de collaboration multi-agent

Résumé

L'application généralisée des grands modèles de langage visuel (VLMs) rend cruciale la sécurisation de leur déploiement. Bien que des études récentes aient démontré des attaques de contournement (jailbreak) sur les VLMs, les approches existantes présentent des limites : elles nécessitent soit un accès en boîte blanche, ce qui restreint leur praticabilité, soit reposent sur des motifs manuellement conçus, entraînant une faible diversité et une scalabilité insuffisante des échantillons. Pour combler ces lacunes, nous proposons JPRO, un nouveau cadre collaboratif multi-agents conçu pour le contournement automatisé des VLMs. Il surmonte efficacement les faiblesses des méthodes précédentes en termes de diversité des attaques et de scalabilité. Grâce à l'action coordonnée de quatre agents spécialisés et à ses deux modules principaux : la Génération de graines pilotée par la tactique et la Boucle d'optimisation adaptative, JPRO génère des échantillons d'attaque efficaces et diversifiés. Les résultats expérimentaux montrent que JPRO atteint un taux de réussite d'attaque supérieur à 60 % sur plusieurs VLMs avancés, y compris GPT-4o, surpassant significativement les méthodes existantes. En tant qu'approche d'attaque en boîte noire, JPRO ne révèle pas seulement des vulnérabilités critiques dans les modèles multimodaux, mais offre également des perspectives précieuses pour évaluer et renforcer la robustesse des VLMs.

English

The widespread application of large VLMs makes ensuring their secure deployment critical. While recent studies have demonstrated jailbreak attacks on VLMs, existing approaches are limited: they require either white-box access, restricting practicality, or rely on manually crafted patterns, leading to poor sample diversity and scalability. To address these gaps, we propose JPRO, a novel multi-agent collaborative framework designed for automated VLM jailbreaking. It effectively overcomes the shortcomings of prior methods in attack diversity and scalability. Through the coordinated action of four specialized agents and its two core modules: Tactic-Driven Seed Generation and Adaptive Optimization Loop, JPRO generates effective and diverse attack samples. Experimental results show that JPRO achieves over a 60\% attack success rate on multiple advanced VLMs, including GPT-4o, significantly outperforming existing methods. As a black-box attack approach, JPRO not only uncovers critical security vulnerabilities in multimodal models but also offers valuable insights for evaluating and enhancing VLM robustness.

JPRO : Contournement automatisé multimodal via un cadre de collaboration multi-agent

JPRO: Automated Multimodal Jailbreaking via Multi-Agent Collaboration Framework

Résumé

Support