Waar kijken grote visueel-taalkundige modellen naar bij het beantwoorden van vragen?

Samenvatting

Grote Vision-Taalmodellen (LVLMs) hebben veelbelovende prestaties getoond in taken die visueel-taalkundig begrip en redeneren vereisen. Hun visuele begripsgedrag blijft echter onderbelicht. Een fundamentele vraag rijst: in hoeverre zijn LVLMs afhankelijk van visuele input, en welke beeldregio's dragen bij aan hun antwoorden? Het interpreteren van de vrije-vorm generatie van LVLMs is niet triviaal vanwege hun complexe visuele architectuur (bijvoorbeeld meerdere encoders en multi-resolutie) en variabele-lengte uitvoer. In dit artikel breiden we bestaande heatmap-visualisatiemethoden (bijvoorbeeld iGOS++) uit om LVLMs te ondersteunen bij open-einde visuele vraagbeantwoording. We stellen een methode voor om visueel relevante tokens te selecteren die de relevantie tussen gegenereerde antwoorden en invoerbeeld weerspiegelen. Bovendien voeren we een uitgebreide analyse uit van state-of-the-art LVLMs op benchmarks die visuele informatie vereisen om te kunnen antwoorden. Onze bevindingen bieden verschillende inzichten in het gedrag van LVLMs, waaronder de relatie tussen focusregio en antwoordcorrectheid, verschillen in visuele aandacht tussen architecturen, en de impact van de schaal van het taalmodel op visueel begrip. De code en gegevens zijn beschikbaar op https://github.com/bytedance/LVLM_Interpretation.

English

Large Vision-Language Models (LVLMs) have shown promising performance in vision-language understanding and reasoning tasks. However, their visual understanding behaviors remain underexplored. A fundamental question arises: to what extent do LVLMs rely on visual input, and which image regions contribute to their responses? It is non-trivial to interpret the free-form generation of LVLMs due to their complicated visual architecture (e.g., multiple encoders and multi-resolution) and variable-length outputs. In this paper, we extend existing heatmap visualization methods (e.g., iGOS++) to support LVLMs for open-ended visual question answering. We propose a method to select visually relevant tokens that reflect the relevance between generated answers and input image. Furthermore, we conduct a comprehensive analysis of state-of-the-art LVLMs on benchmarks designed to require visual information to answer. Our findings offer several insights into LVLM behavior, including the relationship between focus region and answer correctness, differences in visual attention across architectures, and the impact of LLM scale on visual understanding. The code and data are available at https://github.com/bytedance/LVLM_Interpretation.

Waar kijken grote visueel-taalkundige modellen naar bij het beantwoorden van vragen?

Where do Large Vision-Language Models Look at when Answering Questions?

Samenvatting

Support