ChatPaper.aiChatPaper

OpenRT: фреймворк с открытым исходным кодом для тестирования на проникновение многомодальных больших языковых моделей

OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs

January 4, 2026
Авторы: Xin Wang, Yunhao Chen, Juncheng Li, Yixu Wang, Yang Yao, Tianle Gu, Jie Li, Yan Teng, Xingjun Ma, Yingchun Wang, Xia Hu
cs.AI

Аннотация

Быстрая интеграция мультимодальных больших языковых моделей (MLLM) в критически важные приложения все чаще сдерживается сохраняющимися уязвимостями безопасности. Однако существующие бенчмарки для тестирования на устойчивость (red-teaming) часто фрагментированы, ограничены однократными текстовыми взаимодействиями и не обладают необходимой масштабируемостью для систематической оценки. Для решения этой проблемы мы представляем OpenRT — унифицированную, модульную и высокопроизводительную инфраструктуру для тестирования на устойчивость, предназначенную для всесторонней оценки безопасности MLLM. В ее основе лежит парадигмальный сдвиг в автоматизированном тестировании на устойчивость, достигаемый за счет введения состязательного ядра, которое обеспечивает модульное разделение по пяти ключевым направлениям: интеграция моделей, управление данными, стратегии атак, методы оценки и метрики. Стандартизируя интерфейсы атак, фреймворк отделяет состязательную логику от высокопроизводительной асинхронной среды выполнения, что позволяет системно масштабировать оценку для различных моделей. Наша инфраструктура интегрирует 37 разнообразных методологий атак, включая бело-боксовые градиентные атаки, мультимодальные возмущения и сложные эволюционные стратегии с участием множества агентов. В ходе масштабного эмпирического исследования 20 передовых моделей (включая GPT-5.2, Claude 4.5 и Gemini 3 Pro) мы выявили критические пробелы в безопасности: даже самые современные модели не способны обобщать устойчивость к различным парадигмам атак, при этом ведущие модели демонстрируют средний процент успешных атак до 49,14%. Примечательно, что наши результаты показывают, что модели с возможностями рассуждений не обладают врожденно повышенной устойчивостью к сложным многократным взломам (jailbreaks). Публикуя OpenRT в открытом доступе, мы предоставляем устойчивую, расширяемую и постоянно поддерживаемую инфраструктуру, которая ускоряет разработку и стандартизацию безопасности ИИ.
English
The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.
PDF31January 8, 2026