De bijwerkingen van intelligentie: veiligheidsrisico's bij multi-beeldredenering van MLLM's

Samenvatting

Naarmate Multimodale Large Language Models (MLLMs) sterkere redeneervaardigheden verwerven om complexe, multi-beeld instructies te verwerken, kan deze vooruitgang nieuwe veiligheidsrisico's met zich meebrengen. Wij bestuderen dit probleem door MIR-SafetyBench te introduceren, de eerste benchmark die gericht is op de veiligheid van redeneren over meerdere beelden. Deze bestaat uit 2.676 instanties verdeeld over een taxonomie van 9 multi-beeld relaties. Onze uitgebreide evaluaties van 19 MLLMs onthullen een zorgwekkende trend: modellen met geavanceerdere multi-beeld redeneervaardigheden kunnen kwetsbaarder zijn op MIR-SafetyBench. Naast de slagingspercentages van aanvallen constateren we dat veel reacties die als veilig zijn bestempeld, oppervlakkig zijn en vaak worden ingegeven door misverstanden of ontwijkende, niet-committerende antwoorden. Verder observeren we dat onveilige gegenereerde antwoorden gemiddeld een lagere aandacht-entropie vertonen dan veilige. Deze interne signatuur suggereert een mogelijk risico dat modellen zich te veel kunnen focussen op het oplossen van taken terwijl ze veiligheidsrestricties verwaarlozen. Onze code en data zijn beschikbaar op https://github.com/thu-coai/MIR-SafetyBench.

English

As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.

De bijwerkingen van intelligentie: veiligheidsrisico's bij multi-beeldredenering van MLLM's

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

Samenvatting

Support