MUSE: Una Piattaforma Run-Centrica per la Valutazione Unificata e Multimodale della Sicurezza dei Modelli Linguistici di Grande Dimensione

Abstract

La valutazione della sicurezza e il red-teaming dei grandi modelli linguistici rimangono prevalentemente incentrati sul testo, e i framework esistenti mancano dell'infrastruttura necessaria per testare sistematicamente se l'allineamento si generalizza a input audio, immagini e video. Presentiamo MUSE (Multimodal Unified Safety Evaluation), una piattaforma open-source e run-centrica che integra in un unico sistema basato su browser: generazione automatica cross-modale di payload, tre algoritmi di attacco multi-turn (Crescendo, PAIR, Violent Durian), instradamento del modello agnostico rispetto al fornitore e un giudice LLM con una tassonomia di sicurezza a cinque livelli. Un framework a doppia metrica distingue l'Attack Success Rate "hard" (solo Conformità Completa) dall'ASR "soft" (che include la Conformità Parziale), catturando la fuoriuscita parziale di informazioni che le metriche binarie tralasciano. Per investigare se l'allineamento si generalizza attraverso i confini di modalità, introduciamo l'Inter-Turn Modality Switching (ITMS), che potenzia gli attacchi multi-turn con una rotazione della modalità a ogni turno. Esperimenti su sei modelli LLM multimodali di quattro fornitori mostrano che le strategie multi-turn possono raggiungere fino al 90-100% di ASR contro modelli con un rifiuto quasi perfetto in contesto single-turn. L'ITMS non aumenta uniformemente l'ASR finale su baseline già saturate, ma accelera la convergenza destabilizzando le difese nei turni iniziali, e un'ablazione rivela che la direzione degli effetti di modalità è specifica della famiglia di modelli piuttosto che universale, sottolineando la necessità di test di sicurezza cross-modale consapevoli del fornitore.

English

Safety evaluation and red-teaming of large language models remain predominantly text-centric, and existing frameworks lack the infrastructure to systematically test whether alignment generalizes to audio, image, and video inputs. We present MUSE (Multimodal Unified Safety Evaluation), an open-source, run-centric platform that integrates automatic cross-modal payload generation, three multi-turn attack algorithms (Crescendo, PAIR, Violent Durian), provider-agnostic model routing, and an LLM judge with a five-level safety taxonomy into a single browser-based system. A dual-metric framework distinguishes hard Attack Success Rate (Compliance only) from soft ASR (including Partial Compliance), capturing partial information leakage that binary metrics miss. To probe whether alignment generalizes across modality boundaries, we introduce Inter-Turn Modality Switching (ITMS), which augments multi-turn attacks with per-turn modality rotation. Experiments across six multimodal LLMs from four providers show that multi-turn strategies can achieve up to 90-100% ASR against models with near-perfect single-turn refusal. ITMS does not uniformly raise final ASR on already-saturated baselines, but accelerates convergence by destabilizing early-turn defenses, and ablation reveals that the direction of modality effects is model-family-specific rather than universal, underscoring the need for provider-aware cross-modal safety testing.

MUSE: Una Piattaforma Run-Centrica per la Valutazione Unificata e Multimodale della Sicurezza dei Modelli Linguistici di Grande Dimensione

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Abstract

Support