ChatPaper.aiChatPaper

Побочные эффекты интеллекта: риски безопасности при работе MLLM с множеством изображений

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

January 20, 2026
Авторы: Renmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang
cs.AI

Аннотация

По мере того как мультимодальные большие языковые модели (MLLM) приобретают более мощные способности к рассуждению для обработки сложных инструкций с несколькими изображениями, этот прогресс может создавать новые риски безопасности. Мы исследуем эту проблему, представляя MIR-SafetyBench — первый бенчмарк, ориентированный на безопасность многомодальных рассуждений, который состоит из 2676 примеров, охватывающих таксономию из 9 типов отношений между изображениями. Наши масштабные оценки 19 MLLM выявляют тревожную тенденцию: модели с более продвинутыми способностями к работе с несколькими изображениями могут быть более уязвимы в рамках MIR-SafetyBench. Помимо показателей успешности атак, мы обнаруживаем, что многие ответы, помеченные как безопасные, являются поверхностными, часто обусловленными непониманием или уклончивыми, неопределенными ответами. Мы также наблюдаем, что небезопасные генерации в среднем демонстрируют более низкую энтропию внимания по сравнению с безопасными. Эта внутренняя характеристика указывает на возможный риск того, что модели могут чрезмерно фокусироваться на решении задачи, пренебрегая ограничениями безопасности. Наш код и данные доступны по адресу https://github.com/thu-coai/MIR-SafetyBench.
English
As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.
PDF21January 28, 2026