MUSE: Eine laufzeitbasierte Plattform für die multimodale einheitliche Sicherheitsevaluierung großer Sprachmodelle

Zusammenfassung

Die Sicherheitsbewertung und das Red-Teaming von großen Sprachmodellen bleiben überwiegend textzentriert, und bestehende Frameworks verfügen nicht über die Infrastruktur, um systematisch zu testen, ob die Alignment-Eigenschaften auf Audio-, Bild- und Videoeingaben verallgemeinern. Wir stellen MUSE (Multimodal Unified Safety Evaluation) vor, eine quelloffene, run-zentrierte Plattform, die automatische cross-modale Payload-Generierung, drei Multi-Turn-Angriffsalgorithmen (Crescendo, PAIR, Violent Durian), anbieteragnostisches Model-Routing und einen LLM-Judge mit einer fünfstufigen Sicherheitstaxonomie in einem einzigen browserbasierten System integriert. Ein Dual-Metric-Framework unterscheidet zwischen harter Attack Success Rate (nur Compliance) und weicher ASR (einschließlich Teilweiser Compliance), um partielle Informationslecks zu erfassen, die binäre Metriken übersehen. Um zu untersuchen, ob Alignment über Modalitätsgrenzen hinweg verallgemeinert, führen wir Inter-Turn Modality Switching (ITMS) ein, das Multi-Turn-Angriffe durch eine Modalitätsrotation pro Turn erweitert. Experimente mit sechs multimodalen LLMs von vier Anbietern zeigen, dass Multi-Turn-Strategien eine ASR von bis zu 90–100 % gegen Modelle mit nahezu perfekter Single-Turn-Verweigerung erreichen können. ITMS erhöht die finale ASR bei bereits gesättigten Baselines nicht einheitlich, beschleunigt jedoch die Konvergenz durch Destabilisierung der Abwehrmechanismen in frühen Turns. Ablationsstudien zeigen, dass die Richtung der Modalitätseffekte modellfamilienspezifisch und nicht universell ist, was die Notwendigkeit anbieterbewusster cross-modaler Sicherheitstests unterstreicht.

English

Safety evaluation and red-teaming of large language models remain predominantly text-centric, and existing frameworks lack the infrastructure to systematically test whether alignment generalizes to audio, image, and video inputs. We present MUSE (Multimodal Unified Safety Evaluation), an open-source, run-centric platform that integrates automatic cross-modal payload generation, three multi-turn attack algorithms (Crescendo, PAIR, Violent Durian), provider-agnostic model routing, and an LLM judge with a five-level safety taxonomy into a single browser-based system. A dual-metric framework distinguishes hard Attack Success Rate (Compliance only) from soft ASR (including Partial Compliance), capturing partial information leakage that binary metrics miss. To probe whether alignment generalizes across modality boundaries, we introduce Inter-Turn Modality Switching (ITMS), which augments multi-turn attacks with per-turn modality rotation. Experiments across six multimodal LLMs from four providers show that multi-turn strategies can achieve up to 90-100% ASR against models with near-perfect single-turn refusal. ITMS does not uniformly raise final ASR on already-saturated baselines, but accelerates convergence by destabilizing early-turn defenses, and ablation reveals that the direction of modality effects is model-family-specific rather than universal, underscoring the need for provider-aware cross-modal safety testing.

MUSE: Eine laufzeitbasierte Plattform für die multimodale einheitliche Sicherheitsevaluierung großer Sprachmodelle

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Zusammenfassung

Support