Meer Beelden, Meer Problemen? Een Gecontroleerde Analyse van VLM-foutmodi

Samenvatting

Grote Vision-Taalmodellen (LVLM's) hebben opmerkelijke capaciteiten getoond, maar hun vaardigheid in het begrijpen en redeneren over meerdere afbeeldingen blijft grotendeels ononderzocht. Hoewel bestaande benchmarks de evaluatie van multi-image modellen hebben ingezet, ontbreekt het nog steeds aan een uitgebreide analyse van hun kernzwaktes en de oorzaken daarvan. In dit werk introduceren we MIMIC (Multi-Image Model Insights and Challenges), een nieuwe benchmark die ontworpen is om de multi-image capaciteiten van LVLM's rigoureus te evalueren. Met behulp van MIMIC voeren we een reeks diagnostische experimenten uit die alomtegenwoordige problemen blootleggen: LVLM's falen vaak in het aggregeren van informatie over afbeeldingen heen en hebben moeite met het volgen of aandacht schenken aan meerdere concepten tegelijkertijd. Om deze tekortkomingen aan te pakken, stellen we twee nieuwe complementaire oplossingen voor. Aan de data-kant presenteren we een procedurele strategie voor datageneratie die annotaties van enkele afbeeldingen samenstelt tot rijke, gerichte multi-image trainingsvoorbeelden. Aan de optimalisatie-kant analyseren we aandachtspatronen per laag en leiden we een aandacht-maskeringsschema af dat is toegesneden op multi-image invoer. Experimenten verbeterden de aggregatie tussen afbeeldingen aanzienlijk, terwijl ook de prestaties op bestaande multi-image benchmarks verbeterden, waarbij eerdere state-of-the-art resultaten op verschillende taken werden overtroffen. Data en code zullen beschikbaar worden gesteld op https://github.com/anurag-198/MIMIC.

English

Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.

Meer Beelden, Meer Problemen? Een Gecontroleerde Analyse van VLM-foutmodi

More Images, More Problems? A Controlled Analysis of VLM Failure Modes

Samenvatting

Support