OpenRT: Un Framework Open Source per il Red Teaming di Modelli Linguistici Multimodali

Abstract

La rapida integrazione dei Modelli Linguistici Multimodali (MLLM) in applicazioni critiche è sempre più ostacolata da persistenti vulnerabilità in termini di sicurezza. Tuttavia, i benchmark esistenti di red-teaming sono spesso frammentati, limitati a interazioni testuali a turno singolo e privi della scalabilità necessaria per una valutazione sistematica. Per affrontare questo problema, introduciamo OpenRT, un framework di red-teaming unificato, modulare e ad alta produttività, progettato per una valutazione completa della sicurezza degli MLLM. Il suo nucleo propone un cambio di paradigma nel red-teaming automatizzato introducendo un kernel avversario che consente una separazione modulare lungo cinque dimensioni critiche: integrazione del modello, gestione dei dataset, strategie di attacco, metodi di giudizio e metriche di valutazione. Standardizzando le interfacce di attacco, disaccoppia la logica avversaria da un runtime asincrono ad alta produttività, consentendo una scalabilità sistematica su modelli diversi. Il nostro framework integra 37 metodologie di attacco eterogenee, che spaziano da gradienti white-box e perturbazioni multimodali a sofisticate strategie evolutive multi-agente. Attraverso un ampio studio empirico su 20 modelli avanzati (inclusi GPT-5.2, Claude 4.5 e Gemini 3 Pro), abbiamo evidenziato lacune critiche nella sicurezza: persino i modelli all'avanguardia non riescono a generalizzare attraverso i paradigmi di attacco, con i modelli leader che mostrano Tassi di Successo dell'Attacco medi fino al 49,14%. Significativamente, i nostri risultati rivelano che i modelli di ragionamento non possiedono intrinsecamente una robustezza superiore contro jailbreak complessi e multi-turn. Rendi OpenRT open-source fornisce un'infrastruttura sostenibile, estensibile e continuamente mantenuta che accelera lo sviluppo e la standardizzazione della sicurezza dell'IA.

English

The rapid integration of Multimodal Large Language Models (MLLMs) into critical applications is increasingly hindered by persistent safety vulnerabilities. However, existing red-teaming benchmarks are often fragmented, limited to single-turn text interactions, and lack the scalability required for systematic evaluation. To address this, we introduce OpenRT, a unified, modular, and high-throughput red-teaming framework designed for comprehensive MLLM safety evaluation. At its core, OpenRT architects a paradigm shift in automated red-teaming by introducing an adversarial kernel that enables modular separation across five critical dimensions: model integration, dataset management, attack strategies, judging methods, and evaluation metrics. By standardizing attack interfaces, it decouples adversarial logic from a high-throughput asynchronous runtime, enabling systematic scaling across diverse models. Our framework integrates 37 diverse attack methodologies, spanning white-box gradients, multi-modal perturbations, and sophisticated multi-agent evolutionary strategies. Through an extensive empirical study on 20 advanced models (including GPT-5.2, Claude 4.5, and Gemini 3 Pro), we expose critical safety gaps: even frontier models fail to generalize across attack paradigms, with leading models exhibiting average Attack Success Rates as high as 49.14%. Notably, our findings reveal that reasoning models do not inherently possess superior robustness against complex, multi-turn jailbreaks. By open-sourcing OpenRT, we provide a sustainable, extensible, and continuously maintained infrastructure that accelerates the development and standardization of AI safety.

OpenRT: Un Framework Open Source per il Red Teaming di Modelli Linguistici Multimodali

OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs

Abstract

Support