ChatPaper.aiChatPaper

Caché à la vue de tous : les VLMs négligent leurs représentations visuelles

Hidden in plain sight: VLMs overlook their visual representations

June 9, 2025
Auteurs: Stephanie Fu, Tyler Bonnen, Devin Guillory, Trevor Darrell
cs.AI

Résumé

Le langage offre une interface naturelle pour spécifier et évaluer les performances sur des tâches visuelles. Pour concrétiser cette possibilité, les modèles de langage visuel (VLMs) doivent intégrer avec succès les informations visuelles et linguistiques. Notre travail compare les VLMs à une lecture directe de leurs encodeurs visuels afin de comprendre leur capacité à intégrer ces modalités. À travers une série de benchmarks centrés sur la vision (par exemple, l'estimation de la profondeur, la correspondance), nous constatons que les VLMs performent nettement moins bien que leurs encodeurs visuels, atteignant des performances proches du hasard. Nous examinons ces résultats à travers une série d'analyses portant sur l'ensemble du VLM, à savoir : 1) la dégradation des représentations visuelles, 2) la fragilité face aux invites de tâches, et 3) le rôle du modèle de langage dans la résolution de la tâche. Nous constatons que le goulot d'étranglement dans l'exécution de ces tâches centrées sur la vision réside dans cette troisième catégorie ; les VLMs n'utilisent pas efficacement les informations visuelles facilement accessibles à travers l'ensemble du modèle, et ils héritent des préjugés linguistiques présents dans le LLM. Notre travail contribue à diagnostiquer les modes de défaillance des VLMs open-source et présente une série d'évaluations utiles pour les futures recherches sur la compréhension visuelle au sein des VLMs.
English
Language provides a natural interface to specify and evaluate performance on visual tasks. To realize this possibility, vision language models (VLMs) must successfully integrate visual and linguistic information. Our work compares VLMs to a direct readout of their visual encoders to understand their ability to integrate across these modalities. Across a series of vision-centric benchmarks (e.g., depth estimation, correspondence), we find that VLMs perform substantially worse than their visual encoders, dropping to near-chance performance. We investigate these results through a series of analyses across the entire VLM: namely 1) the degradation of vision representations, 2) brittleness to task prompt, and 3) the language model's role in solving the task. We find that the bottleneck in performing these vision-centric tasks lies in this third category; VLMs are not effectively using visual information easily accessible throughout the entire model, and they inherit the language priors present in the LLM. Our work helps diagnose the failure modes of open-source VLMs, and presents a series of evaluations useful for future investigations into visual understanding within VLMs.
PDF51June 12, 2025