ChatPaper.aiChatPaper

VGR: Visueel Gegrond Redeneren

VGR: Visual Grounded Reasoning

June 13, 2025
Auteurs: Jiacong Wang, Zijiang Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao
cs.AI

Samenvatting

Op het gebied van multimodale keten-van-gedachten (CoT) redenering zijn bestaande benaderingen voornamelijk gebaseerd op redenering in de zuivere taalruimte, wat inherent lijdt onder taalvooroordelen en grotendeels beperkt is tot wiskundige of wetenschappelijke domeinen. Deze beperkte focus belemmert hun vermogen om complexe visuele redeneertaken aan te pakken die een uitgebreid begrip van beelddetails vereisen. Om deze beperkingen aan te pakken, introduceert dit artikel VGR, een nieuw redeneerend multimodaal groot taalmodel (MLLM) met verbeterde fijnmazige visuele waarnemingscapaciteiten. In tegenstelling tot traditionele MLLM's die vragen beantwoorden of redeneren uitsluitend in de taalruimte, detecteert onze VGR eerst relevante regio's die kunnen helpen bij het oplossen van problemen, en geeft vervolgens nauwkeurige antwoorden op basis van herhaalde beeldregio's. Om dit te bereiken, hebben we een grootschalige SFT-dataset genaamd VGR-SFT samengesteld die redeneergegevens bevat met een mix van visuele verankering en taaldeductie. De inferentiepijplijn van VGR stelt het model in staat om begrenzingsvakken te kiezen voor visuele referentie, en een herhalingsfase wordt geïntroduceerd om de corresponderende regio's te integreren in het redeneerproces, waardoor het multimodale begrip wordt verbeterd. Experimenten op de LLaVA-NeXT-7B-basislijn tonen aan dat VGR superieure prestaties levert op multimodale benchmarks die een uitgebreid begrip van beelddetails vereisen. Vergeleken met de basislijn gebruikt VGR slechts 30\% van het aantal beeldtokens, terwijl het scores behaalt van +4,1 op MMStar, +7,1 op AI2D en een verbetering van +12,9 op ChartQA.
English
In the field of multimodal chain-of-thought (CoT) reasoning, existing approaches predominantly rely on reasoning on pure language space, which inherently suffers from language bias and is largely confined to math or science domains. This narrow focus limits their ability to handle complex visual reasoning tasks that demand comprehensive understanding of image details. To address these limitations, this paper introduces VGR, a novel reasoning multimodal large language model (MLLM) with enhanced fine-grained visual perception capabilities. Unlike traditional MLLMs that answer the question or reasoning solely on the language space, our VGR first detects relevant regions that may help to solve problems, and then provides precise answers based on replayed image regions. To achieve this, we conduct a large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed vision grounding and language deduction. The inference pipeline of VGR allows the model to choose bounding boxes for visual reference and a replay stage is introduced to integrates the corresponding regions into the reasoning process, enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline show that VGR achieves superior performance on multi-modal benchmarks requiring comprehensive image detail understanding. Compared to the baseline, VGR uses only 30\% of the image token count while delivering scores of +4.1 on MMStar, +7.1 on AI2D, and a +12.9 improvement on ChartQA.
PDF202June 17, 2025