VGR: Визуально обоснованное рассуждение
VGR: Visual Grounded Reasoning
June 13, 2025
Авторы: Jiacong Wang, Zijiang Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao
cs.AI
Аннотация
В области мультимодального рассуждения по цепочке мыслей (CoT) существующие подходы преимущественно опираются на рассуждения в чисто языковом пространстве, что неизбежно приводит к языковым искажениям и в значительной степени ограничивается математическими или научными областями. Такая узкая направленность ограничивает их способность справляться с задачами сложного визуального рассуждения, требующими всестороннего понимания деталей изображений. Для преодоления этих ограничений в данной статье представлена VGR — новая мультимодальная модель языкового рассуждения (MLLM) с улучшенными возможностями детального визуального восприятия. В отличие от традиционных MLLM, которые отвечают на вопросы или рассуждают исключительно в языковом пространстве, наша VGR сначала обнаруживает релевантные области, которые могут помочь в решении задач, а затем предоставляет точные ответы на основе воспроизведенных областей изображения. Для достижения этого мы создали крупномасштабный набор данных SFT под названием VGR-SFT, содержащий данные для рассуждений с сочетанием визуального обоснования и языковой дедукции. Процесс вывода VGR позволяет модели выбирать ограничивающие рамки для визуальной ссылки, а этап воспроизведения интегрирует соответствующие области в процесс рассуждения, улучшая мультимодальное понимание. Эксперименты на базовой модели LLaVA-NeXT-7B показывают, что VGR демонстрирует превосходные результаты на мультимодальных тестах, требующих всестороннего понимания деталей изображений. По сравнению с базовой моделью, VGR использует только 30% количества токенов изображения, при этом показывая улучшение на +4,1 на MMStar, +7,1 на AI2D и +12,9 на ChartQA.
English
In the field of multimodal chain-of-thought (CoT) reasoning, existing
approaches predominantly rely on reasoning on pure language space, which
inherently suffers from language bias and is largely confined to math or
science domains. This narrow focus limits their ability to handle complex
visual reasoning tasks that demand comprehensive understanding of image
details. To address these limitations, this paper introduces VGR, a novel
reasoning multimodal large language model (MLLM) with enhanced fine-grained
visual perception capabilities. Unlike traditional MLLMs that answer the
question or reasoning solely on the language space, our VGR first detects
relevant regions that may help to solve problems, and then provides precise
answers based on replayed image regions. To achieve this, we conduct a
large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed
vision grounding and language deduction. The inference pipeline of VGR allows
the model to choose bounding boxes for visual reference and a replay stage is
introduced to integrates the corresponding regions into the reasoning process,
enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline
show that VGR achieves superior performance on multi-modal benchmarks requiring
comprehensive image detail understanding. Compared to the baseline, VGR uses
only 30\% of the image token count while delivering scores of +4.1 on MMStar,
+7.1 on AI2D, and a +12.9 improvement on ChartQA.