Los efectos secundarios de ser inteligente: riesgos de seguridad en el razonamiento multiimagen de los MLLM
The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning
January 20, 2026
Autores: Renmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang
cs.AI
Resumen
A medida que los Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés) adquieren capacidades de razonamiento más sólidas para manejar instrucciones complejas con múltiples imágenes, este avance puede plantear nuevos riesgos de seguridad. Estudiamos este problema mediante la introducción de MIR-SafetyBench, el primer punto de referencia centrado en la seguridad del razonamiento multimodal con múltiples imágenes, que consta de 2.676 instancias distribuidas en una taxonomía de 9 relaciones multimodales. Nuestras evaluaciones exhaustivas en 19 MLLMs revelan una tendencia preocupante: los modelos con capacidades de razonamiento multimodal más avanzadas pueden ser más vulnerables en MIR-SafetyBench. Más allá de las tasas de éxito de los ataques, encontramos que muchas respuestas etiquetadas como seguras son superficiales, a menudo impulsadas por malentendidos o respuestas evasivas y no comprometidas. Además, observamos que las generaciones no seguras exhiben, en promedio, una entropía de atención más baja que las seguras. Esta firma interna sugiere un posible riesgo de que los modelos puedan concentrarse excesivamente en la resolución de tareas mientras descuidan las restricciones de seguridad. Nuestro código y datos están disponibles en https://github.com/thu-coai/MIR-SafetyBench.
English
As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.