Grid2Matrix: Svelare l'Agnosia Digitale nei Modelli Visione-Linguaggio

Abstract

I modelli visione-linguaggio (VLM) eccellono in molti benchmark di ragionamento multimodale, ma queste valutazioni spesso non richiedono una lettura esaustiva dell'immagine e possono quindi nascondere fallimenti nella cattura fedele di tutti i dettagli visivi. Introduciamo Grid2Matrix (G2M), un benchmark controllato in cui a un modello viene mostrata una griglia di colori e una mappatura colore-numero, e deve restituire la matrice corrispondente. Variando la dimensione della griglia e il numero di colori, G2M fornisce un modo semplice per aumentare la complessità visiva minimizzando al contempo i fattori di confondimento semantici. Scopriamo che i VLM mostrano un brusco collasso precoce nella valutazione end-to-end zero-shot, fallendo su griglie sorprendentemente piccole piuttosto che degradare gradualmente man mano che il compito diventa più denso. Analizziamo gli encoder visivi di VLM appartenenti a due famiglie rappresentative e scopriamo che preservano sostanzialmente più informazioni della griglia rispetto alle corrispondenti uscite end-to-end. Ciò suggerisce che il fallimento non è spiegato dal solo encoding visivo, ma riflette anche un divario tra ciò che rimane recuperabile dalle caratteristiche visive e ciò che viene infine espresso in linguaggio. Definiamo questo divario Agnosia Digitale. Ulteriori analisi mostrano che questi errori sono altamente strutturati e dipendono fortemente da come le celle della griglia si sovrappongono ai confini delle patch visive. Troviamo inoltre che strategie comuni come il ridimensionamento del modello e l'allineamento multimodale non eliminano completamente questa modalità di fallimento. Ci aspettiamo che G2M serva come banco di prova utile per comprendere dove e come i VLM perdono i dettagli visivi fini, e per valutare compiti in cui la mancanza anche di piccoli dettagli visivi può essere rilevante, come tabelle, grafici, moduli e interfacce utente grafiche.

English

Vision-Language Models (VLMs) excel on many multimodal reasoning benchmarks, but these evaluations often do not require an exhaustive readout of the image and can therefore obscure failures in faithfully capturing all visual details. We introduce Grid2Matrix (G2M), a controlled benchmark in which a model is shown a color grid and a color-to-number mapping, and must output the corresponding matrix. By varying grid size and the number of colors, G2M provides a simple way to increase visual complexity while minimizing semantic confounds. We find that VLMs exhibit a sharp early collapse in zero-shot end-to-end evaluation, failing on surprisingly small grids rather than degrading gradually as the task becomes denser. We probe the visual encoders of VLMs from two representative families and find that they preserve substantially more of the grid information than the corresponding end-to-end outputs. This suggests that the failure is not explained by visual encoding alone, but also reflects a gap between what remains recoverable from visual features and what is ultimately expressed in language. We term this gap Digital Agnosia. Further analyses show that these errors are highly structured and depend strongly on how grid cells overlap with visual patch boundaries. We also find that common strategies such as model scaling and multimodal alignment do not fully eliminate this failure mode. We expect G2M to serve as a useful testbed for understanding where and how VLMs lose fine visual details, and for evaluating tasks where missing even small visual details can matter, such as tables, charts, forms, and GUIs.

Grid2Matrix: Svelare l'Agnosia Digitale nei Modelli Visione-Linguaggio

Grid2Matrix: Revealing Digital Agnosia in Vision-Language Models

Abstract

Support