OpenRT: Un Marco de Trabajo de Código Abierto para Pruebas de Penetración en Modelos de Lenguaje Multimodales
OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs
January 4, 2026
Autores: Xin Wang, Yunhao Chen, Juncheng Li, Yixu Wang, Yang Yao, Tianle Gu, Jie Li, Yan Teng, Xingjun Ma, Yingchun Wang, Xia Hu
cs.AI
Resumen
La rápida integración de los Modelos de Lenguaje Multimodales (MLLM) en aplicaciones críticas se ve cada vez más obstaculizada por vulnerabilidades de seguridad persistentes. Sin embargo, los puntos de referencia existentes para pruebas de intrusión (red-teaming) suelen estar fragmentados, limitados a interacciones de texto de un solo turno y carecen de la escalabilidad necesaria para una evaluación sistemática. Para abordar este problema, presentamos OpenRT, un marco de pruebas de intrusión unificado, modular y de alto rendimiento diseñado para la evaluación integral de la seguridad de los MLLM. En esencia, OpenRT establece un cambio de paradigma en las pruebas de intrusión automatizadas al introducir un núcleo adversario que permite una separación modular en cinco dimensiones críticas: integración de modelos, gestión de conjuntos de datos, estrategias de ataque, métodos de evaluación y métricas. Al estandarizar las interfaces de ataque, desacopla la lógica adversaria de un entorno de ejecución asíncrono de alto rendimiento, permitiendo una escalabilidad sistemática en diversos modelos. Nuestro marco integra 37 metodologías de ataque diversas, que abarcan gradientes de caja blanca, perturbaciones multimodales y sofisticadas estrategias evolutivas multiagente. Mediante un extenso estudio empírico en 20 modelos avanzados (incluyendo GPT-5.2, Claude 4.5 y Gemini 3 Pro), exponemos deficiencias críticas de seguridad: incluso los modelos más avanzados no logran generalizar entre paradigmas de ataque, con los modelos líderes exhibiendo Tasas Promedio de Ataque Exitoso de hasta el 49.14%. Notablemente, nuestros hallazgos revelan que los modelos de razonamiento no poseen inherentemente una robustez superior contra jailbreaks complejos y multiturno. Al hacer OpenRT de código abierto, proporcionamos una infraestructura sostenible, extensible y en mantenimiento continuo que acelera el desarrollo y la estandarización de la seguridad de la IA.
English
The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.