MUSE: Una Plataforma Centrada en Ejecuciones para la Evaluación Unificada de Seguridad Multimodal de Modelos de Lenguaje Grandes

Resumen

La evaluación de seguridad y el red-team de los modelos de lenguaje grandes siguen siendo predominantemente centrados en texto, y los marcos existentes carecen de la infraestructura para probar sistemáticamente si la alineación se generaliza a entradas de audio, imagen y video. Presentamos MUSE (Evaluación de Seguridad Multimodal Unificada), una plataforma de código abierto y centrada en ejecuciones que integra la generación automática de cargas útiles cross-modal, tres algoritmos de ataque multi-turno (Crescendo, PAIR, Violent Durian), el enrutamiento de modelos independiente del proveedor y un juez LLM con una taxonomía de seguridad de cinco niveles en un único sistema basado en navegador. Un marco de doble métrica distingue la Tasa de Éxito de Ataque dura (solo Cumplimiento) de la TEA blanda (incluyendo Cumplimiento Parcial), capturando filtraciones parciales de información que las métricas binarias pasan por alto. Para investigar si la alineación se generaliza a través de los límites de modalidad, introducimos la Conmutación de Modalidad Inter-Turno (ITMS), que aumenta los ataques multi-turno con una rotación de modalidad por turno. Los experimentos en seis MLLMs de cuatro proveedores muestran que las estrategias multi-turno pueden alcanzar hasta un 90-100% de TEA contra modelos con un rechazo de turno único casi perfecto. ITMS no aumenta uniformemente la TEA final en líneas base ya saturadas, pero acelera la convergencia al desestabilizar las defensas en los turnos iniciales, y la ablación revela que la dirección de los efectos de modalidad es específica de la familia de modelos en lugar de universal, subrayando la necesidad de pruebas de seguridad cross-modal conscientes del proveedor.

English

Safety evaluation and red-teaming of large language models remain predominantly text-centric, and existing frameworks lack the infrastructure to systematically test whether alignment generalizes to audio, image, and video inputs. We present MUSE (Multimodal Unified Safety Evaluation), an open-source, run-centric platform that integrates automatic cross-modal payload generation, three multi-turn attack algorithms (Crescendo, PAIR, Violent Durian), provider-agnostic model routing, and an LLM judge with a five-level safety taxonomy into a single browser-based system. A dual-metric framework distinguishes hard Attack Success Rate (Compliance only) from soft ASR (including Partial Compliance), capturing partial information leakage that binary metrics miss. To probe whether alignment generalizes across modality boundaries, we introduce Inter-Turn Modality Switching (ITMS), which augments multi-turn attacks with per-turn modality rotation. Experiments across six multimodal LLMs from four providers show that multi-turn strategies can achieve up to 90-100% ASR against models with near-perfect single-turn refusal. ITMS does not uniformly raise final ASR on already-saturated baselines, but accelerates convergence by destabilizing early-turn defenses, and ablation reveals that the direction of modality effects is model-family-specific rather than universal, underscoring the need for provider-aware cross-modal safety testing.

MUSE: Una Plataforma Centrada en Ejecuciones para la Evaluación Unificada de Seguridad Multimodal de Modelos de Lenguaje Grandes

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Resumen

Support