Waar kijken grote visueel-taalkundige modellen naar bij het beantwoorden van vragen?
Where do Large Vision-Language Models Look at when Answering Questions?
March 18, 2025
Auteurs: Xiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu
cs.AI
Samenvatting
Grote Vision-Taalmodellen (LVLMs) hebben veelbelovende prestaties getoond in taken die visueel-taalkundig begrip en redeneren vereisen. Hun visuele begripsgedrag blijft echter onderbelicht. Een fundamentele vraag rijst: in hoeverre zijn LVLMs afhankelijk van visuele input, en welke beeldregio's dragen bij aan hun antwoorden? Het interpreteren van de vrije-vorm generatie van LVLMs is niet triviaal vanwege hun complexe visuele architectuur (bijvoorbeeld meerdere encoders en multi-resolutie) en variabele-lengte uitvoer. In dit artikel breiden we bestaande heatmap-visualisatiemethoden (bijvoorbeeld iGOS++) uit om LVLMs te ondersteunen bij open-einde visuele vraagbeantwoording. We stellen een methode voor om visueel relevante tokens te selecteren die de relevantie tussen gegenereerde antwoorden en invoerbeeld weerspiegelen. Bovendien voeren we een uitgebreide analyse uit van state-of-the-art LVLMs op benchmarks die visuele informatie vereisen om te kunnen antwoorden. Onze bevindingen bieden verschillende inzichten in het gedrag van LVLMs, waaronder de relatie tussen focusregio en antwoordcorrectheid, verschillen in visuele aandacht tussen architecturen, en de impact van de schaal van het taalmodel op visueel begrip. De code en gegevens zijn beschikbaar op https://github.com/bytedance/LVLM_Interpretation.
English
Large Vision-Language Models (LVLMs) have shown promising performance in
vision-language understanding and reasoning tasks. However, their visual
understanding behaviors remain underexplored. A fundamental question arises: to
what extent do LVLMs rely on visual input, and which image regions contribute
to their responses? It is non-trivial to interpret the free-form generation of
LVLMs due to their complicated visual architecture (e.g., multiple encoders and
multi-resolution) and variable-length outputs. In this paper, we extend
existing heatmap visualization methods (e.g., iGOS++) to support LVLMs for
open-ended visual question answering. We propose a method to select visually
relevant tokens that reflect the relevance between generated answers and input
image. Furthermore, we conduct a comprehensive analysis of state-of-the-art
LVLMs on benchmarks designed to require visual information to answer. Our
findings offer several insights into LVLM behavior, including the relationship
between focus region and answer correctness, differences in visual attention
across architectures, and the impact of LLM scale on visual understanding. The
code and data are available at
https://github.com/bytedance/LVLM_Interpretation.Summary
AI-Generated Summary