MUSE: Uma Plataforma Centrada em Execuções para Avaliação Unificada Multimodal de Segurança em Modelos de Linguagem de Grande Porte

Resumo

A avaliação de segurança e o red teaming de grandes modelos de linguagem permanecem predominantemente centrados em texto, e as estruturas existentes carecem da infraestrutura para testar sistematicamente se o alinhamento se generaliza para entradas de áudio, imagem e vídeo. Apresentamos o MUSE (Avaliação de Segurança Unificada Multimodal), uma plataforma de código aberto e centrada em execução que integra geração automática de carga útil cross-modal, três algoritmos de ataque multi-turn (Crescendo, PAIR, Violent Durian), roteamento de modelos independente de provedor e um juiz de LLM com uma taxonomia de segurança de cinco níveis em um único sistema baseado em navegador. Uma estrutura de métricas duplas distingue a Taxa de Sucesso de Ataque "rígida" (apenas Conformidade Total) da TSA "flexível" (incluindo Conformidade Parcial), capturando vazamentos parciais de informação que as métricas binárias ignoram. Para investigar se o alinhamento se generaliza através dos limites de modalidade, introduzimos a Troca de Modalidade Inter-turno (ITMS), que aumenta os ataques multi-turn com rotação de modalidade por turno. Experimentos em seis MLLMs de quatro provedores mostram que estratégias multi-turn podem atingir até 90-100% de TSA contra modelos com recusa quase perfeita em turno único. A ITMS não aumenta uniformemente a TSA final em baselines já saturadas, mas acelera a convergência ao desestabilizar as defesas nos turnos iniciais, e uma ablação revela que a direção dos efeitos de modalidade é específica da família do modelo, e não universal, ressaltando a necessidade de testes de segurança cross-modal conscientes do provedor.

English

Safety evaluation and red-teaming of large language models remain predominantly text-centric, and existing frameworks lack the infrastructure to systematically test whether alignment generalizes to audio, image, and video inputs. We present MUSE (Multimodal Unified Safety Evaluation), an open-source, run-centric platform that integrates automatic cross-modal payload generation, three multi-turn attack algorithms (Crescendo, PAIR, Violent Durian), provider-agnostic model routing, and an LLM judge with a five-level safety taxonomy into a single browser-based system. A dual-metric framework distinguishes hard Attack Success Rate (Compliance only) from soft ASR (including Partial Compliance), capturing partial information leakage that binary metrics miss. To probe whether alignment generalizes across modality boundaries, we introduce Inter-Turn Modality Switching (ITMS), which augments multi-turn attacks with per-turn modality rotation. Experiments across six multimodal LLMs from four providers show that multi-turn strategies can achieve up to 90-100% ASR against models with near-perfect single-turn refusal. ITMS does not uniformly raise final ASR on already-saturated baselines, but accelerates convergence by destabilizing early-turn defenses, and ablation reveals that the direction of modality effects is model-family-specific rather than universal, underscoring the need for provider-aware cross-modal safety testing.

MUSE: Uma Plataforma Centrada em Execuções para Avaliação Unificada Multimodal de Segurança em Modelos de Linguagem de Grande Porte

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Resumo

Support