OpenRT:マルチモーダルLLM向けオープンソースレッドチーミングフレームワーク
OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs
January 4, 2026
著者: Xin Wang, Yunhao Chen, Juncheng Li, Yixu Wang, Yang Yao, Tianle Gu, Jie Li, Yan Teng, Xingjun Ma, Yingchun Wang, Xia Hu
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)の重要アプリケーションへの急速な統合は、持続的な安全性の脆弱性によってますます妨げられている。しかし、既存のレッドチーミングベンチマークは断片的で、単一ターンのテキスト相互作用に限定されることが多く、体系的な評価に必要なスケーラビリティを欠いている。この問題に対処するため、我々は包括的MLLM安全性評価のために設計された、統一化・モジュール化・高スループットのレッドチーミングフレームワーク「OpenRT」を提案する。OpenRTの中核は、自動レッドチーミングにおけるパラダイムシフトを構築する敵対的カーネルであり、モデル統合、データセット管理、攻撃戦略、判定方法、評価指標という5つの重要次元にわたるモジュール分離を可能にする。攻撃インターフェースを標準化することで、敵対的ロジックを高スループットの非同期ランタイムから分離し、多様なモデルにおける体系的なスケーリングを実現する。本フレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略にわたる37の多様な攻撃手法を統合する。20の先進モデル(GPT-5.2、Claude 4.5、Gemini 3 Proを含む)を用いた大規模な実証研究を通じて、重要な安全性のギャップを明らかにした:最先端モデルでさえ攻撃パラダイム間で一般化に失敗し、主要モデルは平均攻撃成功率が49.14%にも達する。特に、推論モデルが複雑なマルチターン脱獄攻撃に対して本質的に優れた堅牢性を持つわけではないことを発見した。OpenRTをオープンソース化することで、AI安全性の開発と標準化を加速する、持続可能で拡張性があり、継続的に維持されるインフラストラクチャを提供する。
English
The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.