VGR: Ragionamento Visivo Fondato
VGR: Visual Grounded Reasoning
June 13, 2025
Autori: Jiacong Wang, Zijiang Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao
cs.AI
Abstract
Nel campo del ragionamento multimodale a catena di pensiero (CoT), gli approcci esistenti si basano prevalentemente sul ragionamento nello spazio puramente linguistico, il quale soffre intrinsecamente di bias linguistici ed è largamente confinato ai domini della matematica o delle scienze. Questo focus ristretto limita la loro capacità di gestire compiti complessi di ragionamento visivo che richiedono una comprensione approfondita dei dettagli delle immagini. Per affrontare queste limitazioni, questo articolo introduce VGR, un nuovo modello linguistico multimodale (MLLM) di ragionamento con capacità potenziate di percezione visiva fine. A differenza dei tradizionali MLLM che rispondono alle domande o ragionano esclusivamente nello spazio linguistico, il nostro VGR rileva prima le regioni rilevanti che possono aiutare a risolvere i problemi, e poi fornisce risposte precise basate sulle regioni delle immagini riprodotte. Per raggiungere questo obiettivo, abbiamo creato un ampio dataset SFT chiamato VGR-SFT che contiene dati di ragionamento con una combinazione di ancoraggio visivo e deduzione linguistica. La pipeline di inferenza di VGR consente al modello di selezionare bounding box per il riferimento visivo e introduce una fase di riproduzione che integra le regioni corrispondenti nel processo di ragionamento, migliorando la comprensione multimodale. Gli esperimenti condotti sul baseline LLaVA-NeXT-7B dimostrano che VGR raggiunge prestazioni superiori nei benchmark multimodali che richiedono una comprensione dettagliata delle immagini. Rispetto al baseline, VGR utilizza solo il 30% del conteggio dei token delle immagini, ottenendo punteggi di +4,1 su MMStar, +7,1 su AI2D e un miglioramento di +12,9 su ChartQA.
English
In the field of multimodal chain-of-thought (CoT) reasoning, existing
approaches predominantly rely on reasoning on pure language space, which
inherently suffers from language bias and is largely confined to math or
science domains. This narrow focus limits their ability to handle complex
visual reasoning tasks that demand comprehensive understanding of image
details. To address these limitations, this paper introduces VGR, a novel
reasoning multimodal large language model (MLLM) with enhanced fine-grained
visual perception capabilities. Unlike traditional MLLMs that answer the
question or reasoning solely on the language space, our VGR first detects
relevant regions that may help to solve problems, and then provides precise
answers based on replayed image regions. To achieve this, we conduct a
large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed
vision grounding and language deduction. The inference pipeline of VGR allows
the model to choose bounding boxes for visual reference and a replay stage is
introduced to integrates the corresponding regions into the reasoning process,
enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline
show that VGR achieves superior performance on multi-modal benchmarks requiring
comprehensive image detail understanding. Compared to the baseline, VGR uses
only 30\% of the image token count while delivering scores of +4.1 on MMStar,
+7.1 on AI2D, and a +12.9 improvement on ChartQA.