¿A dónde miran los grandes modelos de visión y lenguaje cuando responden preguntas?
Where do Large Vision-Language Models Look at when Answering Questions?
March 18, 2025
Autores: Xiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu
cs.AI
Resumen
Los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) han demostrado un rendimiento prometedor en tareas de comprensión y razonamiento de lenguaje y visión. Sin embargo, sus comportamientos de comprensión visual siguen siendo poco explorados. Surge una pregunta fundamental: ¿hasta qué punto los LVLMs dependen de la entrada visual y qué regiones de la imagen contribuyen a sus respuestas? No es trivial interpretar la generación de texto libre de los LVLMs debido a su arquitectura visual compleja (por ejemplo, múltiples codificadores y multi-resolución) y salidas de longitud variable. En este artículo, extendemos los métodos existentes de visualización de mapas de calor (por ejemplo, iGOS++) para apoyar a los LVLMs en la respuesta abierta a preguntas visuales. Proponemos un método para seleccionar tokens visualmente relevantes que reflejen la relación entre las respuestas generadas y la imagen de entrada. Además, realizamos un análisis exhaustivo de los LVLMs más avanzados en conjuntos de datos diseñados para requerir información visual para responder. Nuestros hallazgos ofrecen varias perspectivas sobre el comportamiento de los LVLMs, incluyendo la relación entre la región de enfoque y la corrección de la respuesta, las diferencias en la atención visual entre arquitecturas y el impacto de la escala del modelo de lenguaje en la comprensión visual. El código y los datos están disponibles en https://github.com/bytedance/LVLM_Interpretation.
English
Large Vision-Language Models (LVLMs) have shown promising performance in
vision-language understanding and reasoning tasks. However, their visual
understanding behaviors remain underexplored. A fundamental question arises: to
what extent do LVLMs rely on visual input, and which image regions contribute
to their responses? It is non-trivial to interpret the free-form generation of
LVLMs due to their complicated visual architecture (e.g., multiple encoders and
multi-resolution) and variable-length outputs. In this paper, we extend
existing heatmap visualization methods (e.g., iGOS++) to support LVLMs for
open-ended visual question answering. We propose a method to select visually
relevant tokens that reflect the relevance between generated answers and input
image. Furthermore, we conduct a comprehensive analysis of state-of-the-art
LVLMs on benchmarks designed to require visual information to answer. Our
findings offer several insights into LVLM behavior, including the relationship
between focus region and answer correctness, differences in visual attention
across architectures, and the impact of LLM scale on visual understanding. The
code and data are available at
https://github.com/bytedance/LVLM_Interpretation.Summary
AI-Generated Summary