Os Efeitos Colaterais de Ser Inteligente: Riscos de Segurança no Raciocínio com Múltiplas Imagens em MLLMs

Resumo

À medida que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) adquirem capacidades de raciocínio mais fortes para lidar com instruções complexas envolvendo múltiplas imagens, este avanço pode representar novos riscos de segurança. Estudamos este problema através da introdução do MIR-SafetyBench, o primeiro benchmark focado na segurança do raciocínio multimodal com múltiplas imagens, que consiste em 2.676 instâncias distribuídas por uma taxonomia de 9 relações multimodais. As nossas avaliações extensivas em 19 MLLMs revelam uma tendência preocupante: modelos com capacidades de raciocínio multimodal mais avançadas podem ser mais vulneráveis no MIR-SafetyBench. Para além das taxas de sucesso de ataques, descobrimos que muitas respostas classificadas como seguras são superficiais, frequentemente impulsionadas por mal-entendidos ou por respostas evasivas e não comprometidas. Observámos ainda que as gerações inseguras exibem, em média, uma entropia de atenção mais baixa do que as seguras. Esta assinatura interna sugere um possível risco de os modelos poderem concentrar-se excessivamente na resolução da tarefa, negligenciando as restrições de segurança. O nosso código e dados estão disponíveis em https://github.com/thu-coai/MIR-SafetyBench.

English

As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.

Os Efeitos Colaterais de Ser Inteligente: Riscos de Segurança no Raciocínio com Múltiplas Imagens em MLLMs

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

Resumo

Support