Plus d'images, plus de problèmes ? Une analyse contrôlée des modes de défaillance des modèles de langage visuel
More Images, More Problems? A Controlled Analysis of VLM Failure Modes
January 12, 2026
papers.authors: Anurag Das, Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Bernt Schiele, Georgios Tzimiropoulos, Brais Martinez
cs.AI
papers.abstract
Les grands modèles de vision et langage (LVLM) ont démontré des capacités remarquables, mais leur compétence dans la compréhension et le raisonnement sur plusieurs images reste largement inexplorée. Bien que les benchmarks existants aient initié l'évaluation des modèles multi-images, une analyse approfondie de leurs faiblesses fondamentales et de leurs causes fait encore défaut. Dans ce travail, nous présentons MIMIC (Multi-Image Model Insights and Challenges), un nouveau benchmark conçu pour évaluer rigoureusement les capacités multi-images des LVLM. En utilisant MIMIC, nous menons une série d'expériences de diagnostic qui révèlent des problèmes persistants : les LVLM échouent souvent à agréger l'information entre les images et peinent à suivre ou à traiter simultanément plusieurs concepts. Pour remédier à ces échecs, nous proposons deux solutions complémentaires novatrices. Sur le plan des données, nous présentons une stratégie procédurale de génération de données qui combine des annotations d'images individuelles en exemples d'entraînement multi-images riches et ciblés. Sur le plan de l'optimisation, nous analysons les patterns d'attention par couches et dérivons un mécanisme de masquage de l'attention adapté aux entrées multi-images. Les expériences ont considérablement amélioré l'agrégation inter-images, tout en renforçant les performances sur les benchmarks multi-images existants, surpassant l'état de l'art précédent dans diverses tâches. Les données et le code seront disponibles à l'adresse https://github.com/anurag-198/MIMIC.
English
Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.