Mehr Bilder, mehr Probleme? Eine kontrollierte Analyse von Fehlermodi visueller Sprachmodelle
More Images, More Problems? A Controlled Analysis of VLM Failure Modes
January 12, 2026
papers.authors: Anurag Das, Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Bernt Schiele, Georgios Tzimiropoulos, Brais Martinez
cs.AI
papers.abstract
Große visuell-sprachliche Modelle (LVLMs) haben bemerkenswerte Fähigkeiten demonstriert, doch ihr Beherrschungsgrad im Verständnis und Schlussfolgern über mehrere Bilder hinweg bleibt weitgehend unerforscht. Während bestehende Benchmarks die Evaluation von Multi-Image-Modellen eingeleitet haben, fehlt es nach wie vor an einer umfassenden Analyse ihrer zentralen Schwächen und deren Ursachen. In dieser Arbeit stellen wir MIMIC (Multi-Image Model Insights and Challenges) vor, einen neuen Benchmark, der entwickelt wurde, um die Multi-Image-Fähigkeiten von LVLMs rigoros zu bewerten. Mithilfe von MIMIC führen wir eine Reihe diagnostischer Experimente durch, die weitverbreitete Probleme aufdecken: LVLMs scheitern häufig daran, Informationen über Bilder hinweg zu aggregieren, und haben Schwierigkeiten, mehrere Konzepte gleichzeitig zu verfolgen oder zu beachten. Um diese Defizite zu adressieren, schlagen wir zwei neuartige, komplementäre Abhilfemaßnahmen vor. Auf der Datenseite präsentieren wir eine prozedurale Datengenerierungsstrategie, die Einzelbild-Annotationen zu umfangreichen, zielgerichteten Multi-Image-Trainingsbeispielen zusammensetzt. Auf der Optimierungsseite analysieren wir schichtweise Aufmerksamkeitsmuster und leiten ein auf Multi-Image-Eingaben zugeschnittenes Aufmerksamkeits-Masking-Schema ab. Experimente führten zu einer wesentlichen Verbesserung der bildübergreifenden Aggregation und steigerten gleichzeitig die Leistung auf bestehenden Multi-Image-Benchmarks, wobei frühere State-of-the-Art-Ansätze über verschiedene Aufgaben hinweg übertroffen wurden. Daten und Code werden unter https://github.com/anurag-198/MIMIC verfügbar gemacht.
English
Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.