OpenRT: Ein Open-Source-Framework für Red Teaming bei multimodalen LLMs
OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs
January 4, 2026
papers.authors: Xin Wang, Yunhao Chen, Juncheng Li, Yixu Wang, Yang Yao, Tianle Gu, Jie Li, Yan Teng, Xingjun Ma, Yingchun Wang, Xia Hu
cs.AI
papers.abstract
Die rasche Integration multimodaler großer Sprachmodelle (MLLMs) in kritische Anwendungen wird zunehmend durch anhaltende Sicherheitslücken behindert. Bisherige Red-Teaming-Benchmarks sind jedoch oft fragmentiert, auf einzelne Textinteraktionen beschränkt und mangeln der für systematische Evaluierungen erforderlichen Skalierbarkeit. Um dieses Problem zu adressieren, führen wir OpenRT ein – ein einheitliches, modulares und hochdurchsatzfähiges Red-Teaming-Framework für umfassende MLLM-Sicherheitsbewertungen. Kern von OpenRT ist ein Paradigmenwechsel im automatisierten Red-Teaming durch eine adversariale Kernel-Architektur, die eine modulare Trennung über fünf kritische Dimensionen ermöglicht: Modellintegration, Datenverwaltung, Angriffsstrategien, Bewertungsmethoden und Evaluierungsmetriken. Durch die Standardisierung von Angriffsschnittstellen entkoppelt es die adversarielle Logik von einer hochparallelen Laufzeitumgebung und ermöglicht so systematische Skalierung über diverse Modelle hinweg. Unser Framework integriert 37 verschiedene Angriffsmethoden, darunter White-Box-Gradienten, multimodale Perturbationen und anspruchsvolle Multi-Agenten-Evolutionsstrategien. Eine umfangreiche empirische Studie mit 20 modernen Modellen (einschließlich GPT-5.2, Claude 4.5 und Gemini 3 Pro) deckt kritische Sicherheitslücken auf: Selbst führende Modelle zeigen generalisierte Schwächen über Angriffsparadigmen hinweg, mit durchschnittlichen Angriffserfolgsraten von bis zu 49,14%. Bemerkenswerterweise zeigen unsere Ergebnisse, dass Reasoning-Modelle keine inhärent höhere Robustheit gegen komplexe, mehrstufige Jailbreaks besitzen. Durch die Open-Source-Freigabe von OpenRT schaffen wir eine nachhaltige, erweiterbare und kontinuierlich gepflegte Infrastruktur, die die Entwicklung und Standardisierung von KI-Sicherheit beschleunigt.
English
The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.