OpenRT: Een Open-Source Red Teaming Framework voor Multimodale LLM's
OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs
January 4, 2026
Auteurs: Xin Wang, Yunhao Chen, Juncheng Li, Yixu Wang, Yang Yao, Tianle Gu, Jie Li, Yan Teng, Xingjun Ma, Yingchun Wang, Xia Hu
cs.AI
Samenvatting
De snelle integratie van Multimodale Large Language Models (MLLM's) in kritieke toepassingen wordt in toenemende mate belemmerd door hardnekkige beveiligingslekken. Bestaande red-teamingbenchmarks zijn echter vaak gefragmenteerd, beperkt tot enkelvoudige tekstinteracties en missen de schaalbaarheid die nodig is voor systematische evaluatie. Om dit aan te pakken, introduceren we OpenRT, een uniform, modulair en hoogwaardig red-teamingraamwerk ontworpen voor een uitgebreide MLLM-veiligheidsevaluatie. De kern van OpenRT bestaat uit een paradigmaverschuiving in geautomatiseerd red-teaming door de introductie van een adversariaal kernel die een modulaire scheiding mogelijk maakt over vijf kritieke dimensies: modelintegratie, datasetbeheer, aanvalsstrategieën, beoordelingsmethoden en evaluatiemetrics. Door aanvalsinterfaces te standaardiseren, ontkoppelt het de adversariële logica van een hoogwaardige asynchrone runtime, wat systematische schaling over diverse modellen mogelijk maakt. Ons raamwerk integreert 37 uiteenlopende aanvalsmethodologieën, variërend van white-boxgradiënten, multimodale perturbaties tot geavanceerde multi-agent evolutionaire strategieën. Via een uitgebreide empirische studie van 20 geavanceerde modellen (inclusief GPT-5.2, Claude 4.5 en Gemini 3 Pro) leggen we kritieke veiligheidslekken bloot: zelfs toonaangevende modellen slagen er niet in om zich te generaliseren over aanvalsparadigma's, waarbij vooraanstaande modellen gemiddelde Attack Success Rates vertonen van wel 49,14%. Opmerkelijk is dat onze bevindingen aantonen dat redeneermodellen niet inherent superieure robuustheid bezitten tegen complexe, multi-turn jailbreaks. Door OpenRT open source te maken, bieden we een duurzame, uitbreidbare en continu onderhouden infrastructuur die de ontwikkeling en standaardisatie van AI-veiligheid versnelt.
English
The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.