Куда смотрят крупные визуально-языковые модели при ответе на вопросы?
Where do Large Vision-Language Models Look at when Answering Questions?
March 18, 2025
Авторы: Xiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu
cs.AI
Аннотация
Крупные модели, объединяющие зрение и язык (Large Vision-Language Models, LVLM), демонстрируют впечатляющие результаты в задачах понимания и рассуждений, связанных с визуальными и текстовыми данными. Однако их поведение в отношении визуального понимания остается недостаточно изученным. Возникает фундаментальный вопрос: в какой степени LVLM полагаются на визуальные данные и какие области изображения влияют на их ответы? Интерпретация свободного генеративного поведения LVLM является нетривиальной задачей из-за их сложной визуальной архитектуры (например, множественные кодировщики и мультиразрешение) и выходных данных переменной длины. В данной работе мы расширяем существующие методы визуализации тепловых карт (например, iGOS++) для поддержки LVLM в задачах открытого визуального ответа на вопросы. Мы предлагаем метод выбора визуально значимых токенов, которые отражают связь между сгенерированными ответами и входным изображением. Кроме того, мы проводим всесторонний анализ современных LVLM на тестовых наборах, требующих визуальной информации для ответа. Наши результаты дают несколько важных инсайтов о поведении LVLM, включая связь между областью внимания и правильностью ответа, различия в визуальном внимании между архитектурами и влияние масштаба языковой модели на визуальное понимание. Код и данные доступны по адресу https://github.com/bytedance/LVLM_Interpretation.
English
Large Vision-Language Models (LVLMs) have shown promising performance in
vision-language understanding and reasoning tasks. However, their visual
understanding behaviors remain underexplored. A fundamental question arises: to
what extent do LVLMs rely on visual input, and which image regions contribute
to their responses? It is non-trivial to interpret the free-form generation of
LVLMs due to their complicated visual architecture (e.g., multiple encoders and
multi-resolution) and variable-length outputs. In this paper, we extend
existing heatmap visualization methods (e.g., iGOS++) to support LVLMs for
open-ended visual question answering. We propose a method to select visually
relevant tokens that reflect the relevance between generated answers and input
image. Furthermore, we conduct a comprehensive analysis of state-of-the-art
LVLMs on benchmarks designed to require visual information to answer. Our
findings offer several insights into LVLM behavior, including the relationship
between focus region and answer correctness, differences in visual attention
across architectures, and the impact of LLM scale on visual understanding. The
code and data are available at
https://github.com/bytedance/LVLM_Interpretation.Summary
AI-Generated Summary