Più Immagini, Più Problemi? Un'Analisi Controllata delle Modalità di Fallimento dei VLM

Abstract

I Large Vision Language Models (LVLM) hanno dimostrato capacità notevoli, ma la loro competenza nella comprensione e nel ragionamento su immagini multiple rimane in gran parte inesplorata. Sebbene i benchmark esistenti abbiano avviato la valutazione di modelli multi-immagine, manca ancora un'analisi completa delle loro principali carenze e delle relative cause. In questo lavoro, introduciamo MIMIC (Multi-Image Model Insights and Challenges), un nuovo benchmark progettato per valutare rigorosamente le capacità multi-immagine degli LVLM. Utilizzando MIMIC, conduciamo una serie di esperimenti diagnostici che rivelano problemi pervasivi: gli LVLM spesso non riescono ad aggregare informazioni tra le immagini e faticano a tracciare o prestare attenzione a più concetti simultaneamente. Per affrontare queste carenze, proponiamo due nuovi rimedi complementari. Sul fronte dei dati, presentiamo una strategia procedurale di generazione dei dati che combina annotazioni di singole immagini in esempi di addestramento multi-immagine ricchi e mirati. Sul fronte dell'ottimizzazione, analizziamo i pattern di attenzione per strato e deriviamo uno schema di attention-masking specifico per input multi-immagine. Gli esperimenti hanno migliorato sostanzialmente l'aggregazione cross-image, migliorando anche le prestazioni sui benchmark multi-immagine esistenti e superando lo stato dell'arte precedente in vari compiti. Dati e codice saranno resi disponibili all'indirizzo https://github.com/anurag-198/MIMIC.

English

Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.

Più Immagini, Più Problemi? Un'Analisi Controllata delle Modalità di Fallimento dei VLM

More Images, More Problems? A Controlled Analysis of VLM Failure Modes

Abstract

Support