ChatPaper.aiChatPaper

Die Nebenwirkungen von Intelligenz: Sicherheitsrisiken bei der Multi-Bild-Argumentation von MLLMs

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

January 20, 2026
papers.authors: Renmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang
cs.AI

papers.abstract

Da Multimodale Große Sprachmodelle (MLLMs) zunehmend stärkere Reasoning-Fähigkeiten erwerben, um komplexe, multi-bildliche Instruktionen zu verarbeiten, könnte dieser Fortschritt neue Sicherheitsrisiken bergen. Wir untersuchen dieses Problem durch die Einführung von MIR-SafetyBench, dem ersten Benchmark, der sich auf die Sicherheit beim Multi-Image-Reasoning konzentriert und aus 2.676 Instanzen über eine Taxonomie von 9 Multi-Image-Relationen besteht. Unsere umfangreichen Evaluierungen von 19 MLLMs zeigen einen besorgniserregenden Trend: Modelle mit fortschrittlicherer Multi-Image-Reasoning-Fähigkeit können anfälliger auf MIR-SafetyBench sein. Über die Angriffserfolgsraten hinaus stellen wir fest, dass viele als sicher eingestufte Antworten oberflächlich sind, oft bedingt durch Missverständnisse oder ausweichende, unverbindliche Reaktionen. Weiterhin beobachten wir, dass unsichere Generationen im Durchschnitt eine geringere Aufmerksamkeitsentropie aufweisen als sichere. Dieses interne Merkmal deutet auf ein mögliches Risiko hin, dass Modelle sich übermäßig auf die Aufgabenerfüllung konzentrieren und dabei Sicherheitsbeschränkungen vernachlässigen könnten. Unser Code und unsere Daten sind verfügbar unter https://github.com/thu-coai/MIR-SafetyBench.
English
As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.
PDF21January 28, 2026