ChatPaper.aiChatPaper

똑똑함의 부작용: MLLM의 다중 이미지 추론에서 나타나는 안전 위험

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

January 20, 2026
저자: Renmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang
cs.AI

초록

다중 양식 대규모 언어 모델(MLLM)이 복잡한 다중 이미지 명령을 처리할 수 있는 강력한 추론 능력을 획득함에 따라, 이러한 발전은 새로운 안전 위험을 초래할 수 있습니다. 우리는 이 문제를 연구하기 위해 9가지 다중 이미지 관계 분류 체계에 걸친 2,676개의 인스턴스로 구성된, 다중 이미지 추론 안전성에 초점을 맞춘 최초의 벤치마크인 MIR-SafetyBench을 소개합니다. 19개의 MLLM에 대한 광범위한 평가 결과, 다중 이미지 추론 능력이 더 발전된 모델일수록 MIR-SafetyBench에서 더 취약할 수 있다는 우려스러운 경향을 확인했습니다. 공격 성공률을 넘어서, 안전하게 분류된 많은 응답이 피상적이며 종종 오해나 회피적이고 모호한 답변에 기인한다는 점을 발견했습니다. 또한 안전하지 않은 생성물이 평균적으로 안전한 생성물보다 낮은 어텐션 엔트로피를 보인다는 것을 관찰했습니다. 이러한 내부적 특성은 모델이 안전 제약을 소홀히 한 채 과도하게 과업 해결에 집중할 수 있는 위험 가능성을 시사합니다. 우리의 코드와 데이터는 https://github.com/thu-coai/MIR-SafetyBench에서 확인할 수 있습니다.
English
As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.
PDF21January 28, 2026