Escondido à vista de todos: os VLMs negligenciam suas representações visuais
Hidden in plain sight: VLMs overlook their visual representations
June 9, 2025
Autores: Stephanie Fu, Tyler Bonnen, Devin Guillory, Trevor Darrell
cs.AI
Resumo
A linguagem fornece uma interface natural para especificar e avaliar o desempenho em tarefas visuais. Para concretizar essa possibilidade, os modelos de linguagem visual (VLMs, na sigla em inglês) devem integrar com sucesso informações visuais e linguísticas. Nosso trabalho compara VLMs a uma leitura direta de seus codificadores visuais para entender sua capacidade de integrar essas modalidades. Em uma série de benchmarks centrados em visão (por exemplo, estimativa de profundidade, correspondência), descobrimos que os VLMs têm um desempenho substancialmente pior do que seus codificadores visuais, caindo para um desempenho próximo ao acaso. Investigamos esses resultados por meio de uma série de análises em todo o VLM: especificamente 1) a degradação das representações visuais, 2) a fragilidade em relação ao prompt da tarefa e 3) o papel do modelo de linguagem na resolução da tarefa. Descobrimos que o gargalo na execução dessas tarefas centradas em visão está nessa terceira categoria; os VLMs não estão utilizando efetivamente as informações visuais facilmente acessíveis em todo o modelo, e eles herdam os vieses linguísticos presentes no LLM. Nosso trabalho ajuda a diagnosticar os modos de falha de VLMs de código aberto e apresenta uma série de avaliações úteis para investigações futuras sobre o entendimento visual dentro de VLMs.
English
Language provides a natural interface to specify and evaluate performance on
visual tasks. To realize this possibility, vision language models (VLMs) must
successfully integrate visual and linguistic information. Our work compares
VLMs to a direct readout of their visual encoders to understand their ability
to integrate across these modalities. Across a series of vision-centric
benchmarks (e.g., depth estimation, correspondence), we find that VLMs perform
substantially worse than their visual encoders, dropping to near-chance
performance. We investigate these results through a series of analyses across
the entire VLM: namely 1) the degradation of vision representations, 2)
brittleness to task prompt, and 3) the language model's role in solving the
task. We find that the bottleneck in performing these vision-centric tasks lies
in this third category; VLMs are not effectively using visual information
easily accessible throughout the entire model, and they inherit the language
priors present in the LLM. Our work helps diagnose the failure modes of
open-source VLMs, and presents a series of evaluations useful for future
investigations into visual understanding within VLMs.