ChatPaper.aiChatPaper

Où les grands modèles vision-langage regardent-ils lorsqu'ils répondent à des questions ?

Where do Large Vision-Language Models Look at when Answering Questions?

March 18, 2025
Auteurs: Xiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu
cs.AI

Résumé

Les grands modèles vision-langage (LVLMs) ont démontré des performances prometteuses dans les tâches de compréhension et de raisonnement vision-langage. Cependant, leurs comportements de compréhension visuelle restent peu explorés. Une question fondamentale se pose : dans quelle mesure les LVLMs s'appuient-ils sur l'entrée visuelle, et quelles régions de l'image contribuent à leurs réponses ? Il est non trivial d'interpréter la génération libre des LVLMs en raison de leur architecture visuelle complexe (par exemple, plusieurs encodeurs et multi-résolution) et de leurs sorties de longueur variable. Dans cet article, nous étendons les méthodes existantes de visualisation par carte de chaleur (par exemple, iGOS++) pour prendre en charge les LVLMs dans le cadre de réponses ouvertes à des questions visuelles. Nous proposons une méthode pour sélectionner les tokens visuellement pertinents qui reflètent la pertinence entre les réponses générées et l'image d'entrée. De plus, nous menons une analyse approfondie des LVLMs de pointe sur des benchmarks conçus pour nécessiter des informations visuelles pour répondre. Nos résultats offrent plusieurs insights sur le comportement des LVLMs, notamment la relation entre la région de focalisation et la justesse de la réponse, les différences d'attention visuelle selon les architectures, et l'impact de l'échelle du modèle de langage sur la compréhension visuelle. Le code et les données sont disponibles à l'adresse suivante : https://github.com/bytedance/LVLM_Interpretation.
English
Large Vision-Language Models (LVLMs) have shown promising performance in vision-language understanding and reasoning tasks. However, their visual understanding behaviors remain underexplored. A fundamental question arises: to what extent do LVLMs rely on visual input, and which image regions contribute to their responses? It is non-trivial to interpret the free-form generation of LVLMs due to their complicated visual architecture (e.g., multiple encoders and multi-resolution) and variable-length outputs. In this paper, we extend existing heatmap visualization methods (e.g., iGOS++) to support LVLMs for open-ended visual question answering. We propose a method to select visually relevant tokens that reflect the relevance between generated answers and input image. Furthermore, we conduct a comprehensive analysis of state-of-the-art LVLMs on benchmarks designed to require visual information to answer. Our findings offer several insights into LVLM behavior, including the relationship between focus region and answer correctness, differences in visual attention across architectures, and the impact of LLM scale on visual understanding. The code and data are available at https://github.com/bytedance/LVLM_Interpretation.

Summary

AI-Generated Summary

PDF82March 21, 2025