VGR: Ragionamento Visivo Fondato

Abstract

Nel campo del ragionamento multimodale a catena di pensiero (CoT), gli approcci esistenti si basano prevalentemente sul ragionamento nello spazio puramente linguistico, il quale soffre intrinsecamente di bias linguistici ed è largamente confinato ai domini della matematica o delle scienze. Questo focus ristretto limita la loro capacità di gestire compiti complessi di ragionamento visivo che richiedono una comprensione approfondita dei dettagli delle immagini. Per affrontare queste limitazioni, questo articolo introduce VGR, un nuovo modello linguistico multimodale (MLLM) di ragionamento con capacità potenziate di percezione visiva fine. A differenza dei tradizionali MLLM che rispondono alle domande o ragionano esclusivamente nello spazio linguistico, il nostro VGR rileva prima le regioni rilevanti che possono aiutare a risolvere i problemi, e poi fornisce risposte precise basate sulle regioni delle immagini riprodotte. Per raggiungere questo obiettivo, abbiamo creato un ampio dataset SFT chiamato VGR-SFT che contiene dati di ragionamento con una combinazione di ancoraggio visivo e deduzione linguistica. La pipeline di inferenza di VGR consente al modello di selezionare bounding box per il riferimento visivo e introduce una fase di riproduzione che integra le regioni corrispondenti nel processo di ragionamento, migliorando la comprensione multimodale. Gli esperimenti condotti sul baseline LLaVA-NeXT-7B dimostrano che VGR raggiunge prestazioni superiori nei benchmark multimodali che richiedono una comprensione dettagliata delle immagini. Rispetto al baseline, VGR utilizza solo il 30% del conteggio dei token delle immagini, ottenendo punteggi di +4,1 su MMStar, +7,1 su AI2D e un miglioramento di +12,9 su ChartQA.

English

In the field of multimodal chain-of-thought (CoT) reasoning, existing approaches predominantly rely on reasoning on pure language space, which inherently suffers from language bias and is largely confined to math or science domains. This narrow focus limits their ability to handle complex visual reasoning tasks that demand comprehensive understanding of image details. To address these limitations, this paper introduces VGR, a novel reasoning multimodal large language model (MLLM) with enhanced fine-grained visual perception capabilities. Unlike traditional MLLMs that answer the question or reasoning solely on the language space, our VGR first detects relevant regions that may help to solve problems, and then provides precise answers based on replayed image regions. To achieve this, we conduct a large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed vision grounding and language deduction. The inference pipeline of VGR allows the model to choose bounding boxes for visual reference and a replay stage is introduced to integrates the corresponding regions into the reasoning process, enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline show that VGR achieves superior performance on multi-modal benchmarks requiring comprehensive image detail understanding. Compared to the baseline, VGR uses only 30\% of the image token count while delivering scores of +4.1 on MMStar, +7.1 on AI2D, and a +12.9 improvement on ChartQA.

VGR: Ragionamento Visivo Fondato

VGR: Visual Grounded Reasoning

Abstract

Support