ChatPaper.aiChatPaper

Les Effets Secondaires de l'Intelligence : Risques de Sécurité dans le Raisonnement Multi-Images des MLLM

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

January 20, 2026
papers.authors: Renmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang
cs.AI

papers.abstract

Alors que les modèles de langage multimodaux (MLLM) acquièrent des capacités de raisonnement plus robustes pour traiter des instructions complexes impliquant plusieurs images, cette avancée pourrait engendrer de nouveaux risques en matière de sécurité. Nous étudions ce problème en présentant MIR-SafetyBench, le premier benchmark axé sur la sécurité du raisonnement multi-images, qui comprend 2 676 instances réparties selon une taxonomie de 9 relations multi-images. Nos évaluations approfondies sur 19 MLLM révèlent une tendance préoccupante : les modèles dotés des capacités de raisonnement multi-images les plus avancées peuvent s'avérer plus vulnérables sur MIR-SafetyBench. Au-delà des taux de réussite des attaques, nous constatons que de nombreuses réponses étiquetées comme sûres sont superficielles, souvent motivées par une incompréhension ou par des réponses évasives et non engagées. Nous observons en outre que les générations non sécurisées présentent en moyenne une entropie d'attention plus faible que les générations sûres. Cette signature interne suggère un risque potentiel que les modèles se concentrent excessivement sur la résolution de la tâche tout en négligeant les contraintes de sécurité. Notre code et nos données sont disponibles à l'adresse https://github.com/thu-coai/MIR-SafetyBench.
English
As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.
PDF21January 28, 2026