Grid2Matrix: Revelando a Agnósia Digital em Modelos de Visão e Linguagem

Resumo

Os Modelos de Linguagem Visual (VLMs) apresentam excelente desempenho em muitos benchmarks de raciocínio multimodal, mas essas avaliações geralmente não exigem uma leitura exaustiva da imagem e, portanto, podem ocultar falhas na captura fiel de todos os detalhes visuais. Apresentamos o Grid2Matrix (G2M), um benchmark controlado no qual um modelo é apresentado a uma grade de cores e a um mapeamento de cor para número, e deve gerar a matriz correspondente. Ao variar o tamanho da grade e o número de cores, o G2M fornece uma maneira simples de aumentar a complexidade visual enquanto minimiza confusões semânticas. Descobrimos que os VLMs exibem um colapso precoce e abrupto na avaliação *zero-shot* de ponta a ponta, falhando em grades surpreendentemente pequenas, em vez de se degradarem gradualmente à medida que a tarefa se torna mais densa. Investigamos os codificadores visuais de VLMs de duas famílias representativas e descobrimos que eles preservam substancialmente mais informações da grade do que as saídas de ponta a ponta correspondentes. Isto sugere que a falha não é explicada apenas pela codificação visual, mas também reflete uma lacuna entre o que permanece recuperável a partir das características visuais e o que é finalmente expresso em linguagem. Denominamos esta lacuna de Agnósia Digital. Análises adicionais mostram que esses erros são altamente estruturados e dependem fortemente de como as células da grade se sobrepõem aos limites dos *patches* visuais. Também descobrimos que estratégias comuns, como escalonamento de modelo e alinhamento multimodal, não eliminam completamente este modo de falha. Esperamos que o G2M sirva como um campo de testes útil para entender onde e como os VLMs perdem detalhes visuais finos, e para avaliar tarefas em que a falta de até mesmo pequenos detalhes visuais pode ser importante, como tabelas, gráficos, formulários e interfaces gráficas de utilizador (GUIs).

English

Vision-Language Models (VLMs) excel on many multimodal reasoning benchmarks, but these evaluations often do not require an exhaustive readout of the image and can therefore obscure failures in faithfully capturing all visual details. We introduce Grid2Matrix (G2M), a controlled benchmark in which a model is shown a color grid and a color-to-number mapping, and must output the corresponding matrix. By varying grid size and the number of colors, G2M provides a simple way to increase visual complexity while minimizing semantic confounds. We find that VLMs exhibit a sharp early collapse in zero-shot end-to-end evaluation, failing on surprisingly small grids rather than degrading gradually as the task becomes denser. We probe the visual encoders of VLMs from two representative families and find that they preserve substantially more of the grid information than the corresponding end-to-end outputs. This suggests that the failure is not explained by visual encoding alone, but also reflects a gap between what remains recoverable from visual features and what is ultimately expressed in language. We term this gap Digital Agnosia. Further analyses show that these errors are highly structured and depend strongly on how grid cells overlap with visual patch boundaries. We also find that common strategies such as model scaling and multimodal alignment do not fully eliminate this failure mode. We expect G2M to serve as a useful testbed for understanding where and how VLMs lose fine visual details, and for evaluating tasks where missing even small visual details can matter, such as tables, charts, forms, and GUIs.

Grid2Matrix: Revelando a Agnósia Digital em Modelos de Visão e Linguagem

Grid2Matrix: Revealing Digital Agnosia in Vision-Language Models

Resumo

Support