MUSE: Een Run-Gecentreerd Platform voor Multimodale Uniforme Veiligheidsevaluatie van Grote Taalmodellen

Samenvatting

Veiligheidsbeoordeling en red-teaming van grote taalmodellen blijven overwegend tekstgericht, en bestaande raamwerken missen de infrastructuur om systematisch te testen of alignment zich uitstrekt tot audio-, beeld- en video-inputs. Wij presenteren MUSE (Multimodal Unified Safety Evaluation), een open-source, run-gecentreerd platform dat automatische cross-modale payload-generatie, drie multi-turn aanvalsalgoritmen (Crescendo, PAIR, Violent Durian), provider-agnostische modelroutering en een LLM-rechter met een vijfniveau veiligheidstaxonomie integreert in een enkel browsergebaseerd systeem. Een dual-metric raamwerk onderscheidt harde Attack Success Rate (alleen Compliance) van zachte ASR (inclusief Gedeeltelijke Compliance), waarbij gedeeltelijke informatielekkage wordt vastgelegd die binaire metrieken missen. Om te onderzoeken of alignment generaliseert over modaliteitsgrenzen heen, introduceren wij Inter-Turn Modality Switching (ITMS), dat multi-turn aanvallen uitbreidt met modaliteitsrotatie per beurt. Experimenten met zes multimodale LLM's van vier providers tonen aan dat multi-turn strategieën tot 90-100% ASR kunnen bereiken tegen modellen met een bijna perfecte single-turn weigering. ITMS verhoogt de finale ASR niet uniform op reeds verzadigde basislijnen, maar versnelt de convergentie door verdedigingen in vroege beurten te destabiliseren, en ablatie toont aan dat de richting van modaliteitseffecten modelspecifiek is in plaats van universeel, wat de noodzaak van providerbewuste cross-modale veiligheidstests onderstreept.

English

Safety evaluation and red-teaming of large language models remain predominantly text-centric, and existing frameworks lack the infrastructure to systematically test whether alignment generalizes to audio, image, and video inputs. We present MUSE (Multimodal Unified Safety Evaluation), an open-source, run-centric platform that integrates automatic cross-modal payload generation, three multi-turn attack algorithms (Crescendo, PAIR, Violent Durian), provider-agnostic model routing, and an LLM judge with a five-level safety taxonomy into a single browser-based system. A dual-metric framework distinguishes hard Attack Success Rate (Compliance only) from soft ASR (including Partial Compliance), capturing partial information leakage that binary metrics miss. To probe whether alignment generalizes across modality boundaries, we introduce Inter-Turn Modality Switching (ITMS), which augments multi-turn attacks with per-turn modality rotation. Experiments across six multimodal LLMs from four providers show that multi-turn strategies can achieve up to 90-100% ASR against models with near-perfect single-turn refusal. ITMS does not uniformly raise final ASR on already-saturated baselines, but accelerates convergence by destabilizing early-turn defenses, and ablation reveals that the direction of modality effects is model-family-specific rather than universal, underscoring the need for provider-aware cross-modal safety testing.

MUSE: Een Run-Gecentreerd Platform voor Multimodale Uniforme Veiligheidsevaluatie van Grote Taalmodellen

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Samenvatting

Support