JPRO: Automatización Multimodal de Jailbreaking mediante un Marco de Colaboración Multiagente

Resumen

La aplicación generalizada de los grandes modelos de lenguaje visual (VLMs, por sus siglas en inglés) hace que garantizar su despliegue seguro sea crítico. Si bien estudios recientes han demostrado ataques de jailbreak en VLMs, los enfoques existentes son limitados: requieren acceso de caja blanca, lo que restringe su practicidad, o dependen de patrones elaborados manualmente, lo que resulta en una baja diversidad y escalabilidad de las muestras. Para abordar estas limitaciones, proponemos JPRO, un marco colaborativo multiagente novedoso diseñado para el jailbreaking automatizado de VLMs. Este supera eficazmente las deficiencias de los métodos anteriores en diversidad de ataques y escalabilidad. A través de la acción coordinada de cuatro agentes especializados y sus dos módulos principales: Generación de Semillas Basada en Tácticas y Bucle de Optimización Adaptativa, JPRO genera muestras de ataque efectivas y diversas. Los resultados experimentales muestran que JPRO logra una tasa de éxito de ataque superior al 60% en múltiples VLMs avanzados, incluyendo GPT-4o, superando significativamente a los métodos existentes. Como enfoque de ataque de caja negra, JPRO no solo descubre vulnerabilidades críticas de seguridad en modelos multimodales, sino que también ofrece valiosas perspectivas para evaluar y mejorar la robustez de los VLMs.

English

The widespread application of large VLMs makes ensuring their secure deployment critical. While recent studies have demonstrated jailbreak attacks on VLMs, existing approaches are limited: they require either white-box access, restricting practicality, or rely on manually crafted patterns, leading to poor sample diversity and scalability. To address these gaps, we propose JPRO, a novel multi-agent collaborative framework designed for automated VLM jailbreaking. It effectively overcomes the shortcomings of prior methods in attack diversity and scalability. Through the coordinated action of four specialized agents and its two core modules: Tactic-Driven Seed Generation and Adaptive Optimization Loop, JPRO generates effective and diverse attack samples. Experimental results show that JPRO achieves over a 60\% attack success rate on multiple advanced VLMs, including GPT-4o, significantly outperforming existing methods. As a black-box attack approach, JPRO not only uncovers critical security vulnerabilities in multimodal models but also offers valuable insights for evaluating and enhancing VLM robustness.

JPRO: Automatización Multimodal de Jailbreaking mediante un Marco de Colaboración Multiagente

JPRO: Automated Multimodal Jailbreaking via Multi-Agent Collaboration Framework

Resumen

Support