Dove guardano i grandi modelli visione-linguaggio quando rispondono alle domande?
Where do Large Vision-Language Models Look at when Answering Questions?
March 18, 2025
Autori: Xiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu
cs.AI
Abstract
I grandi modelli visione-linguaggio (LVLM) hanno dimostrato prestazioni promettenti nei compiti di comprensione e ragionamento visione-linguaggio. Tuttavia, i loro comportamenti di comprensione visiva rimangono poco esplorati. Sorge una domanda fondamentale: in che misura i LVLM si affidano all'input visivo e quali regioni dell'immagine contribuiscono alle loro risposte? È non banale interpretare la generazione libera dei LVLM a causa della loro complessa architettura visiva (ad esempio, più encoder e multi-risoluzione) e degli output di lunghezza variabile. In questo articolo, estendiamo i metodi esistenti di visualizzazione delle mappe di calore (ad esempio, iGOS++) per supportare i LVLM nel rispondere a domande visive aperte. Proponiamo un metodo per selezionare token visivamente rilevanti che riflettono la pertinenza tra le risposte generate e l'immagine in input. Inoltre, conduciamo un'analisi completa dei LVLM all'avanguardia su benchmark progettati per richiedere informazioni visive per rispondere. Le nostre scoperte offrono diverse intuizioni sul comportamento dei LVLM, inclusa la relazione tra la regione di attenzione e la correttezza della risposta, le differenze nell'attenzione visiva tra le architetture e l'impatto della scala del LLM sulla comprensione visiva. Il codice e i dati sono disponibili su https://github.com/bytedance/LVLM_Interpretation.
English
Large Vision-Language Models (LVLMs) have shown promising performance in
vision-language understanding and reasoning tasks. However, their visual
understanding behaviors remain underexplored. A fundamental question arises: to
what extent do LVLMs rely on visual input, and which image regions contribute
to their responses? It is non-trivial to interpret the free-form generation of
LVLMs due to their complicated visual architecture (e.g., multiple encoders and
multi-resolution) and variable-length outputs. In this paper, we extend
existing heatmap visualization methods (e.g., iGOS++) to support LVLMs for
open-ended visual question answering. We propose a method to select visually
relevant tokens that reflect the relevance between generated answers and input
image. Furthermore, we conduct a comprehensive analysis of state-of-the-art
LVLMs on benchmarks designed to require visual information to answer. Our
findings offer several insights into LVLM behavior, including the relationship
between focus region and answer correctness, differences in visual attention
across architectures, and the impact of LLM scale on visual understanding. The
code and data are available at
https://github.com/bytedance/LVLM_Interpretation.