Grid2Matrix: Digitale Agnosie in Vision-Language Modellen Aan Het Licht Brengen

Samenvatting

Vision-Language Models (VLMs) presteren uitstekend op veel multimodale redeneerbenchmarks, maar deze evaluaties vereisen vaak geen uitgebreide uitlezing van de afbeelding en kunnen daarom tekortkomingen verhullen in het nauwkeurig vastleggen van alle visuele details. Wij introduceren Grid2Matrix (G2M), een gecontroleerde benchmark waarin een model een kleurenraster en een kleur-naar-nummer toewijzing te zien krijgt, en de bijbehorende matrix moet uitvoeren. Door de rastergrootte en het aantal kleuren te variëren, biedt G2M een eenvoudige manier om de visuele complexiteit te vergroten terwijl semantische verstorende factoren worden geminimaliseerd. Wij ontdekken dat VLMs een scherpe, vroege ineenstorting vertonen bij zero-shot end-to-end evaluatie, waarbij ze falen op verrassend kleine rasters in plaats van geleidelijk af te nemen naarmate de taak complexer wordt. Wij onderzoeken de visuele encoders van VLMs uit twee representatieve families en ontdekken dat deze aanzienlijk meer van de rasterinformatie behouden dan de corresponderende end-to-end uitvoeren. Dit suggereert dat het falen niet alleen wordt verklaard door de visuele codering, maar ook een kloof weerspiegelt tussen wat er herwinbaar blijft uit de visuele kenmerken en wat uiteindelijk in taal wordt uitgedrukt. Wij noemen deze kloof Digitale Agnosie. Verdere analyses tonen aan dat deze fouten sterk gestructureerd zijn en sterk afhangen van hoe rastercellen overlappen met de grenzen van visuele patches. Wij stellen ook vast dat gangbare strategieën zoals modelschaling en multimodale afstemming deze faalwijze niet volledig elimineren. Wij verwachten dat G2M een nuttige testomgeving zal zijn om te begrijpen waar en hoe VLMs fijne visuele details verliezen, en voor het evalueren van taken waarbij het missen van zelfs kleine visuele details van belang kan zijn, zoals tabellen, grafieken, formulieren en GUI's.

English

Vision-Language Models (VLMs) excel on many multimodal reasoning benchmarks, but these evaluations often do not require an exhaustive readout of the image and can therefore obscure failures in faithfully capturing all visual details. We introduce Grid2Matrix (G2M), a controlled benchmark in which a model is shown a color grid and a color-to-number mapping, and must output the corresponding matrix. By varying grid size and the number of colors, G2M provides a simple way to increase visual complexity while minimizing semantic confounds. We find that VLMs exhibit a sharp early collapse in zero-shot end-to-end evaluation, failing on surprisingly small grids rather than degrading gradually as the task becomes denser. We probe the visual encoders of VLMs from two representative families and find that they preserve substantially more of the grid information than the corresponding end-to-end outputs. This suggests that the failure is not explained by visual encoding alone, but also reflects a gap between what remains recoverable from visual features and what is ultimately expressed in language. We term this gap Digital Agnosia. Further analyses show that these errors are highly structured and depend strongly on how grid cells overlap with visual patch boundaries. We also find that common strategies such as model scaling and multimodal alignment do not fully eliminate this failure mode. We expect G2M to serve as a useful testbed for understanding where and how VLMs lose fine visual details, and for evaluating tasks where missing even small visual details can matter, such as tables, charts, forms, and GUIs.

Grid2Matrix: Digitale Agnosie in Vision-Language Modellen Aan Het Licht Brengen

Grid2Matrix: Revealing Digital Agnosia in Vision-Language Models

Samenvatting

Support