OpenRT: 멀티모달 LLM을 위한 오픈소스 레드 팀링 프레임워크
OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs
January 4, 2026
저자: Xin Wang, Yunhao Chen, Juncheng Li, Yixu Wang, Yang Yao, Tianle Gu, Jie Li, Yan Teng, Xingjun Ma, Yingchun Wang, Xia Hu
cs.AI
초록
다양한 분야에서 멀티모달 대규모 언어 모델(MLLM)의 급속한 도입이 지속적인 안전성 취약점으로 인해 점점 더 저해되고 있습니다. 그러나 기존 레드팀링 벤치마크는 종종 단편적이며, 단일 회차 텍스트 상호작용으로 제한되고, 체계적인 평가에 필요한 확장성을 결여하고 있습니다. 이를 해결하기 위해 우리는 포괄적인 MLLM 안전성 평가를 위해 설계된 통합적, 모듈식, 고처리량 레드팀링 프레임워크인 OpenRT를 소개합니다. OpenRT의 핵심은 모델 통합, 데이터셋 관리, 공격 전략, 판단 방법, 평가 지표라는 다섯 가지 핵심 차원에서 모듈식 분리를 가능하게 하는 적대적 커널을 도입하여 자동화된 레드팀링에 패러다임 전환을 설계합니다. 공격 인터페이스를 표준화함으로써, 이 프레임워크는 적대적 로직을 고처리량 비동기 런타임으로부터 분리하여 다양한 모델 간의 체계적인 확장을 가능하게 합니다. 우리의 프레임워크는 화이트박스 기울기, 멀티모달 변형, 정교한 다중 에이전트 진화 전략에 이르는 37가지 다양한 공격 방법론을 통합합니다. 20개의 최첨단 모델( GPT-5.2, Claude 4.5, Gemini 3 Pro 포함)에 대한 광범위한 실증 연구를 통해 우리는 중요한 안전성 격차를 밝혀냈습니다: 최첨단 모델조차도 공격 패러다임 전반에 걸쳐 일반화하는 데 실패하며, 주요 모델들의 평균 공격 성공률(ASR)이 49.14%에 이르는 것으로 나타났습니다. 특히, 우리의 연구 결과는 추론 모델이 복잡한 다중 회차 탈옥(jailbreak) 공격에 대해 선천적으로 우수한 견고성을 가지지는 않는다는 점을 보여줍니다. OpenRT를 오픈소스로 공개함으로써, 우리는 AI 안전성의 발전과 표준화를 가속화하는 지속 가능하고 확장 가능하며 지속적으로 유지관리되는 인프라를 제공합니다.
English
The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.