Escondido à vista de todos: os VLMs negligenciam suas representações visuais

Resumo

A linguagem fornece uma interface natural para especificar e avaliar o desempenho em tarefas visuais. Para concretizar essa possibilidade, os modelos de linguagem visual (VLMs, na sigla em inglês) devem integrar com sucesso informações visuais e linguísticas. Nosso trabalho compara VLMs a uma leitura direta de seus codificadores visuais para entender sua capacidade de integrar essas modalidades. Em uma série de benchmarks centrados em visão (por exemplo, estimativa de profundidade, correspondência), descobrimos que os VLMs têm um desempenho substancialmente pior do que seus codificadores visuais, caindo para um desempenho próximo ao acaso. Investigamos esses resultados por meio de uma série de análises em todo o VLM: especificamente 1) a degradação das representações visuais, 2) a fragilidade em relação ao prompt da tarefa e 3) o papel do modelo de linguagem na resolução da tarefa. Descobrimos que o gargalo na execução dessas tarefas centradas em visão está nessa terceira categoria; os VLMs não estão utilizando efetivamente as informações visuais facilmente acessíveis em todo o modelo, e eles herdam os vieses linguísticos presentes no LLM. Nosso trabalho ajuda a diagnosticar os modos de falha de VLMs de código aberto e apresenta uma série de avaliações úteis para investigações futuras sobre o entendimento visual dentro de VLMs.

English

Language provides a natural interface to specify and evaluate performance on visual tasks. To realize this possibility, vision language models (VLMs) must successfully integrate visual and linguistic information. Our work compares VLMs to a direct readout of their visual encoders to understand their ability to integrate across these modalities. Across a series of vision-centric benchmarks (e.g., depth estimation, correspondence), we find that VLMs perform substantially worse than their visual encoders, dropping to near-chance performance. We investigate these results through a series of analyses across the entire VLM: namely 1) the degradation of vision representations, 2) brittleness to task prompt, and 3) the language model's role in solving the task. We find that the bottleneck in performing these vision-centric tasks lies in this third category; VLMs are not effectively using visual information easily accessible throughout the entire model, and they inherit the language priors present in the LLM. Our work helps diagnose the failure modes of open-source VLMs, and presents a series of evaluations useful for future investigations into visual understanding within VLMs.

Escondido à vista de todos: os VLMs negligenciam suas representações visuais

Hidden in plain sight: VLMs overlook their visual representations

Resumo

Support