MUSE: Платформа с центрированным на прогонах подходом для мультимодальной унифицированной оценки безопасности больших языковых моделей

Аннотация

Оценка безопасности и тестирование на устойчивость к атакам (red-teaming) крупных языковых моделей остаются преимущественно тексто-ориентированными, а существующие frameworks не имеют инфраструктуры для систематической проверки того, распространяется ли выравнивание (alignment) на аудио-, изображения и видео. Мы представляем MUSE (Multimodal Unified Safety Evaluation) — открытую платформу, ориентированную на запуск экспериментов, которая объединяет автоматическую кросс-модальную генерацию вредоносных нагрузок, три многоходовых алгоритма атаки (Crescendo, PAIR, Violent Durian), провайдер-агностическую маршрутизацию моделей и LLM-судью с пятиуровневой таксономией безопасности в единую браузерную систему. Двухметричная framework различает жесткий показатель успешности атак (Attack Success Rate, только «Полное соответствие») и мягкий ASR (включая «Частичное соответствие»), фиксируя утечку частичной информации, которую бинарные метрики упускают. Чтобы исследовать, обобщается ли выравнивание across modality boundaries, мы вводим Inter-Turn Modality Switching (ITMS), который дополняет многоходовые атаки сменой модальности на каждом ходе. Эксперименты на шести мультимодальных LLM от четырех провайдеров показывают, что многоходовые стратегии могут достигать до 90-100% ASR против моделей с почти идеальным отказом в одноходовом сценарии. ITMS не повышает итоговый ASR на уже насыщенных базовых уровнях равномерно, но ускоряет сходимость, дестабилизируя защиту на ранних ходах, а ablation-анализ reveals, что направление модальных эффектов зависит от конкретного семейства моделей, а не является универсальным, что подчеркивает необходимость провайдер-ориентированного кросс-модального тестирования безопасности.

English

Safety evaluation and red-teaming of large language models remain predominantly text-centric, and existing frameworks lack the infrastructure to systematically test whether alignment generalizes to audio, image, and video inputs. We present MUSE (Multimodal Unified Safety Evaluation), an open-source, run-centric platform that integrates automatic cross-modal payload generation, three multi-turn attack algorithms (Crescendo, PAIR, Violent Durian), provider-agnostic model routing, and an LLM judge with a five-level safety taxonomy into a single browser-based system. A dual-metric framework distinguishes hard Attack Success Rate (Compliance only) from soft ASR (including Partial Compliance), capturing partial information leakage that binary metrics miss. To probe whether alignment generalizes across modality boundaries, we introduce Inter-Turn Modality Switching (ITMS), which augments multi-turn attacks with per-turn modality rotation. Experiments across six multimodal LLMs from four providers show that multi-turn strategies can achieve up to 90-100% ASR against models with near-perfect single-turn refusal. ITMS does not uniformly raise final ASR on already-saturated baselines, but accelerates convergence by destabilizing early-turn defenses, and ablation reveals that the direction of modality effects is model-family-specific rather than universal, underscoring the need for provider-aware cross-modal safety testing.

MUSE: Платформа с центрированным на прогонах подходом для мультимодальной унифицированной оценки безопасности больших языковых моделей

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Аннотация

Support