OpenRT : Un cadre de test d'intrusion open source pour les modèles de langage multimodaux
OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs
January 4, 2026
papers.authors: Xin Wang, Yunhao Chen, Juncheng Li, Yixu Wang, Yang Yao, Tianle Gu, Jie Li, Yan Teng, Xingjun Ma, Yingchun Wang, Xia Hu
cs.AI
papers.abstract
L'intégration rapide des modèles de langage multimodaux (MLLM) dans des applications critiques est de plus en plus entravée par des vulnérabilités persistantes en matière de sécurité. Cependant, les benchmarks existants de test d'intrusion (« red-teaming ») sont souvent fragmentés, limités à des interactions textuelles à tour unique et manquent de l'évolutivité nécessaire pour une évaluation systématique. Pour remédier à cela, nous présentons OpenRT, un cadre de test d'intrusion unifié, modulaire et à haut débit conçu pour une évaluation complète de la sécurité des MLLM. Au cœur d'OpenRT se trouve un changement de paradigme dans le test d'intrusion automatisé, matérialisé par un noyau adversaire qui permet une séparation modulaire selon cinq dimensions critiques : l'intégration des modèles, la gestion des jeux de données, les stratégies d'attaque, les méthodes de jugement et les métriques d'évaluation. En standardisant les interfaces d'attaque, il découple la logique adverse d'un moteur d'exécution asynchrone à haut débit, permettant une mise à l'échelle systématique sur divers modèles. Notre cadre intègre 37 méthodologies d'attaque diverses, couvrant les gradients en boîte blanche, les perturbations multimodales et des stratégies évolutives multi-agents sophistiquées. Grâce à une étude empirique approfondie sur 20 modèles avancés (incluant GPT-5.2, Claude 4.5 et Gemini 3 Pro), nous exposons des lacunes critiques en matière de sécurité : même les modèles les plus performants échouent à généraliser leur robustesse face aux différents paradigmes d'attaque, les meilleurs modèles affichant un taux de réussite d'attaque moyen pouvant atteindre 49,14 %. Il est particulièrement notable que nos résultats révèlent que les modèles de raisonnement ne possèdent pas intrinsèquement une robustesse supérieure contre les contournements complexes et multi-tours. En ouvrant le code d'OpenRT, nous fournissons une infrastructure durable, extensible et continuellement maintenue qui accélère le développement et la standardisation de la sécurité de l'IA.
English
The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.