ChatPaper.aiChatPaper

¿Más imágenes, más problemas? Un análisis controlado de los modos de fallo de los modelos de lenguaje visual

More Images, More Problems? A Controlled Analysis of VLM Failure Modes

January 12, 2026
Autores: Anurag Das, Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Bernt Schiele, Georgios Tzimiropoulos, Brais Martinez
cs.AI

Resumen

Los Grandes Modelos de Lenguaje y Visión (LVLM) han demostrado capacidades notables, aunque su competencia para comprender y razonar sobre múltiples imágenes sigue siendo en gran medida inexplorada. Si bien los benchmarks existentes han iniciado la evaluación de modelos multi-imagen, aún falta un análisis exhaustivo de sus debilidades fundamentales y sus causas. En este trabajo, presentamos MIMIC (Multi-Image Model Insights and Challenges), un nuevo benchmark diseñado para evaluar rigurosamente las capacidades multi-imagen de los LVLM. Utilizando MIMIC, realizamos una serie de experimentos de diagnóstico que revelan problemas generalizados: los LVLM a menudo no logran agregar información entre imágenes y tienen dificultades para rastrear o atender múltiples conceptos simultáneamente. Para abordar estas deficiencias, proponemos dos remedios complementarios novedosos. En el aspecto de los datos, presentamos una estrategia procedural de generación de datos que combina anotaciones de imagen única en ejemplos de entrenamiento multi-imagen ricos y específicos. En el aspecto de la optimización, analizamos patrones de atención por capas y derivamos un esquema de enmascaramiento de atención adaptado para entradas multi-imagen. Los experimentos mejoraron sustancialmente la agregación entre imágenes, al mismo tiempo que mejoraron el rendimiento en benchmarks multi-imagen existentes, superando el estado del arte anterior en diversas tareas. Los datos y el código estarán disponibles en https://github.com/anurag-198/MIMIC.
English
Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.
PDF22January 20, 2026