OpenRT: Uma Estrutura de Red Teaming de Código Aberto para LLMs Multimodais

Resumo

A rápida integração de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) em aplicações críticas está cada vez mais obstruída por vulnerabilidades de segurança persistentes. No entanto, os benchmarks existentes de *red-teaming* são frequentemente fragmentados, limitados a interações de texto de turno único e carecem da escalabilidade necessária para uma avaliação sistemática. Para resolver isso, introduzimos o OpenRT, uma estrutura de *red-teaming* unificada, modular e de alto rendimento, projetada para uma avaliação abrangente da segurança de MLLMs. Em seu cerne, o OpenRT arquiteta uma mudança de paradigma no *red-teaming* automatizado, introduzindo um núcleo adversário que permite uma separação modular em cinco dimensões críticas: integração de modelos, gestão de conjuntos de dados, estratégias de ataque, métodos de julgamento e métricas de avaliação. Ao padronizar as interfaces de ataque, ele desacopla a lógica adversária de um ambiente de execução assíncrono de alto rendimento, permitindo uma escalagem sistemática em diversos modelos. Nossa estrutura integra 37 metodologias de ataque diversas, abrangendo gradientes de *white-box*, perturbações multimodais e sofisticadas estratégias evolutivas multiagente. Através de um extenso estudo empírico em 20 modelos avançados (incluindo GPT-5.2, Claude 4.5 e Gemini 3 Pro), expomos lacunas críticas de segurança: mesmo os modelos de fronteira falham em generalizar entre paradigmas de ataque, com os modelos líderes exibindo Taxas Médias de Sucesso de Ataque de até 49,14%. Notavelmente, nossas descobertas revelam que modelos de raciocínio não possuem inerentemente uma robustez superior contra *jailbreaks* complexos e multi-turno. Ao disponibilizar o OpenRT como código aberto, fornecemos uma infraestrutura sustentável, extensível e continuamente mantida que acelera o desenvolvimento e a padronização da segurança da IA.

English

The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.

OpenRT: Uma Estrutura de Red Teaming de Código Aberto para LLMs Multimodais

OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs

Resumo

Support