Mais Imagens, Mais Problemas? Uma Análise Controlada dos Modos de Falha em VLMs

Resumo

Os Grandes Modelos de Visão e Linguagem (LVLMs) demonstraram capacidades notáveis, mas sua proficiência na compreensão e raciocínio sobre múltiplas imagens permanece amplamente inexplorada. Embora os benchmarks existentes tenham iniciado a avaliação de modelos multi-imagem, ainda falta uma análise abrangente de suas principais fraquezas e suas causas. Neste trabalho, introduzimos o MIMIC (Multi-Image Model Insights and Challenges), um novo benchmark projetado para avaliar rigorosamente as capacidades multi-imagem dos LVLMs. Utilizando o MIMIC, conduzimos uma série de experimentos de diagnóstico que revelam problemas generalizados: os LVLMs frequentemente falham em agregar informações entre imagens e lutam para rastrear ou atender a múltiplos conceitos simultaneamente. Para abordar essas falhas, propomos dois novos remédios complementares. No lado dos dados, apresentamos uma estratégia procedural de geração de dados que compõe anotações de imagem única em exemplos de treinamento multi-imagem ricos e direcionados. No lado da otimização, analisamos padrões de atenção por camadas e derivamos um esquema de mascaramento de atenção adaptado para entradas multi-imagem. Os experimentos melhoraram substancialmente a agregação entre imagens, ao mesmo tempo que aprimoraram o desempenho em benchmarks multi-imagem existentes, superando o estado da arte anterior em diversas tarefas. Dados e código estarão disponíveis em https://github.com/anurag-198/MIMIC.

English

Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.

Mais Imagens, Mais Problemas? Uma Análise Controlada dos Modos de Falha em VLMs

More Images, More Problems? A Controlled Analysis of VLM Failure Modes

Resumo

Support