MUSE : Une plateforme axée sur les exécutions pour l'évaluation unifiée et multimodale de la sécurité des grands modèles de langage

Résumé

L'évaluation de la sécurité et le test d'intrusion (red-teaming) des grands modèles de langage restent principalement centrés sur le texte, et les cadres existants manquent d'infrastructures pour tester systématiquement si l'alignement se généralise aux entrées audio, visuelles et vidéo. Nous présentons MUSE (Évaluation Unifiée de la Sécurité Multimodale), une plateforme open-source, axée sur l'exécution, qui intègre la génération automatique de charges utiles cross-modales, trois algorithmes d'attaque multi-tours (Crescendo, PAIR, Violent Durian), un routage de modèles agnostique aux fournisseurs, et un juge LLM avec une taxonomie de sécurité à cinq niveaux dans un système unique basé sur un navigateur. Un cadre à double métrique distingue le Taux de Réussite d'Attaque (TRA) dur (Compliance uniquement) du TRA doux (incluant la Compliance Partielle), capturant les fuites d'information partielles que les métriques binaires manquent. Pour explorer si l'alignement se généralise au-delà des frontières modales, nous introduisons la Commutation Modale Inter-Tour (ITMS), qui augmente les attaques multi-tours par une rotation modale à chaque tour. Les expériences sur six MLLM de quatre fournisseurs montrent que les stratégies multi-tours peuvent atteindre jusqu'à 90-100% de TRA contre des modèles ayant un refus quasi parfait en un seul tour. L'ITMS n'augmente pas uniformément le TRA final sur des bases de référence déjà saturées, mais accélère la convergence en déstabilisant les défenses des premiers tours, et une ablation révèle que la direction des effets modaux est spécifique à la famille de modèles plutôt qu'universelle, soulignant le besoin de tests de sécurité cross-modaux conscients du fournisseur.

English

Safety evaluation and red-teaming of large language models remain predominantly text-centric, and existing frameworks lack the infrastructure to systematically test whether alignment generalizes to audio, image, and video inputs. We present MUSE (Multimodal Unified Safety Evaluation), an open-source, run-centric platform that integrates automatic cross-modal payload generation, three multi-turn attack algorithms (Crescendo, PAIR, Violent Durian), provider-agnostic model routing, and an LLM judge with a five-level safety taxonomy into a single browser-based system. A dual-metric framework distinguishes hard Attack Success Rate (Compliance only) from soft ASR (including Partial Compliance), capturing partial information leakage that binary metrics miss. To probe whether alignment generalizes across modality boundaries, we introduce Inter-Turn Modality Switching (ITMS), which augments multi-turn attacks with per-turn modality rotation. Experiments across six multimodal LLMs from four providers show that multi-turn strategies can achieve up to 90-100% ASR against models with near-perfect single-turn refusal. ITMS does not uniformly raise final ASR on already-saturated baselines, but accelerates convergence by destabilizing early-turn defenses, and ablation reveals that the direction of modality effects is model-family-specific rather than universal, underscoring the need for provider-aware cross-modal safety testing.

MUSE : Une plateforme axée sur les exécutions pour l'évaluation unifiée et multimodale de la sécurité des grands modèles de langage

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Résumé

Support