Gli Effetti Collaterali dell'Essere Intelligenti: Rischi per la Sicurezza nel Ragionamento su Immagini Multiple dei MLLM

Abstract

Man mano che i Modelli Linguistici Multimodali di grandi dimensioni (MLLM) acquisiscono capacità di ragionamento più avanzate per gestire istruzioni complesse che coinvolgono più immagini, questo progresso potrebbe comportare nuovi rischi per la sicurezza. Analizziamo questo problema introducendo MIR-SafetyBench, il primo benchmark incentrato sulla sicurezza del ragionamento multimodale su immagini multiple, composto da 2.676 istanze organizzate secondo una tassonomia di 9 relazioni tra immagini. Le nostre valutazioni estensive su 19 MLLM rivelano una tendenza preoccupante: i modelli con capacità di ragionamento multi-immagine più avanzate possono risultare più vulnerabili su MIR-SafetyBench. Oltre ai tassi di successo degli attacchi, riscontriamo che molte risposte classificate come sicure sono superficiali, spesso guidate da incomprensioni o da repliche evasive e non impegnative. Inoltre, osserviamo che le generazioni non sicure presentano in media un'entropia dell'attenzione inferiore rispetto a quelle sicure. Questa firma interna suggerisce un possibile rischio che i modelli possano concentrarsi eccessivamente sulla risoluzione del compito trascurando i vincoli di sicurezza. Il nostro codice e i dati sono disponibili su https://github.com/thu-coai/MIR-SafetyBench.

English

As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.

Gli Effetti Collaterali dell'Essere Intelligenti: Rischi per la Sicurezza nel Ragionamento su Immagini Multiple dei MLLM

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

Abstract

Support