Onde os Grandes Modelos de Visão e Linguagem Olham ao Responder Perguntas?
Where do Large Vision-Language Models Look at when Answering Questions?
March 18, 2025
Autores: Xiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu
cs.AI
Resumo
Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) têm demonstrado desempenho promissor em tarefas de compreensão e raciocínio visuo-linguístico. No entanto, seus comportamentos de compreensão visual permanecem pouco explorados. Surge uma questão fundamental: até que ponto os LVLMs dependem da entrada visual e quais regiões da imagem contribuem para suas respostas? É não trivial interpretar a geração de forma livre dos LVLMs devido à sua arquitetura visual complexa (por exemplo, múltiplos codificadores e multi-resolução) e saídas de comprimento variável. Neste artigo, estendemos métodos existentes de visualização de mapas de calor (por exemplo, iGOS++) para suportar LVLMs em tarefas de resposta visual aberta. Propomos um método para selecionar tokens visualmente relevantes que refletem a relação entre as respostas geradas e a imagem de entrada. Além disso, realizamos uma análise abrangente de LVLMs de última geração em benchmarks projetados para exigir informações visuais para responder. Nossas descobertas oferecem várias percepções sobre o comportamento dos LVLMs, incluindo a relação entre a região de foco e a correção da resposta, diferenças na atenção visual entre arquiteturas e o impacto da escala do modelo de linguagem (LLM) na compreensão visual. O código e os dados estão disponíveis em https://github.com/bytedance/LVLM_Interpretation.
English
Large Vision-Language Models (LVLMs) have shown promising performance in
vision-language understanding and reasoning tasks. However, their visual
understanding behaviors remain underexplored. A fundamental question arises: to
what extent do LVLMs rely on visual input, and which image regions contribute
to their responses? It is non-trivial to interpret the free-form generation of
LVLMs due to their complicated visual architecture (e.g., multiple encoders and
multi-resolution) and variable-length outputs. In this paper, we extend
existing heatmap visualization methods (e.g., iGOS++) to support LVLMs for
open-ended visual question answering. We propose a method to select visually
relevant tokens that reflect the relevance between generated answers and input
image. Furthermore, we conduct a comprehensive analysis of state-of-the-art
LVLMs on benchmarks designed to require visual information to answer. Our
findings offer several insights into LVLM behavior, including the relationship
between focus region and answer correctness, differences in visual attention
across architectures, and the impact of LLM scale on visual understanding. The
code and data are available at
https://github.com/bytedance/LVLM_Interpretation.Summary
AI-Generated Summary