ChatPaper.aiChatPaper

賢さの副作用:マルチモーダル大規模言語モデルにおける複数画像推論の安全性リスク

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

January 20, 2026
著者: Renmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)が複雑なマルチ画像指示を処理する高度な推論能力を獲得するにつれ、この進歩は新たな安全性リスクをもたらす可能性がある。本研究では、マルチ画像推論の安全性に焦点を当てた最初のベンチマークであるMIR-SafetyBenchを導入し、この問題を検討する。本ベンチマークは、9種類のマルチ画像関係からなる2,676インスタンスで構成されている。19のMLLMに対する大規模な評価により、憂慮すべき傾向が明らかになった:より高度なマルチ画像推論能力を持つモデルほど、MIR-SafetyBenchにおいて脆弱になりやすいのである。攻撃成功率を超えて、安全とラベル付けされた応答の多くが表面的であり、誤解や回避的・曖昧な返答によって駆動されていることが分かった。さらに、安全でない生成結果は、平均して安全なものよりも注意エントロピーが低い傾向にあることを観察した。この内部的特徴は、モデルが安全性制約を無視してタスク解決に過度に集中する可能性というリスクを示唆している。コードとデータはhttps://github.com/thu-coai/MIR-SafetyBench で公開している。
English
As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.
PDF21January 28, 2026