ChatPaper.aiChatPaper

VGR: Visuell fundiertes Schließen

VGR: Visual Grounded Reasoning

June 13, 2025
Autoren: Jiacong Wang, Zijiang Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao
cs.AI

Zusammenfassung

Im Bereich des multimodalen Chain-of-Thought (CoT)-Denkens stützen sich bestehende Ansätze überwiegend auf das Denken im reinen Sprachraum, was zwangsläufig unter Sprachverzerrungen leidet und weitgehend auf mathematische oder naturwissenschaftliche Domänen beschränkt ist. Diese enge Fokussierung schränkt ihre Fähigkeit ein, komplexe visuelle Denkaufgaben zu bewältigen, die ein umfassendes Verständnis von Bilddetails erfordern. Um diese Einschränkungen zu überwinden, stellt diese Arbeit VGR vor, ein neuartiges multimodales großes Sprachmodell (MLLM) mit verbesserten fein abgestimmten visuellen Wahrnehmungsfähigkeiten. Im Gegensatz zu traditionellen MLLMs, die Fragen oder Denkprozesse ausschließlich im Sprachraum beantworten, erkennt unser VGR zunächst relevante Regionen, die zur Lösung von Problemen beitragen könnten, und liefert dann präzise Antworten basierend auf den wiedergegebenen Bildregionen. Um dies zu erreichen, erstellen wir einen groß angelegten SFT-Datensatz namens VGR-SFT, der Denkdaten mit gemischter visueller Verankerung und sprachlicher Deduktion enthält. Die Inferenzpipeline von VGR ermöglicht es dem Modell, Begrenzungsrahmen für visuelle Referenzen auszuwählen, und eine Wiedergabephase wird eingeführt, um die entsprechenden Regionen in den Denkprozess zu integrieren und so das multimodale Verständnis zu verbessern. Experimente auf der LLaVA-NeXT-7B-Basislinie zeigen, dass VGR eine überlegene Leistung bei multimodalen Benchmarks erzielt, die ein umfassendes Verständnis von Bilddetails erfordern. Im Vergleich zur Basislinie verwendet VGR nur 30 % der Bildtokenanzahl, liefert jedoch Werte von +4,1 bei MMStar, +7,1 bei AI2D und eine Verbesserung von +12,9 bei ChartQA.
English
In the field of multimodal chain-of-thought (CoT) reasoning, existing approaches predominantly rely on reasoning on pure language space, which inherently suffers from language bias and is largely confined to math or science domains. This narrow focus limits their ability to handle complex visual reasoning tasks that demand comprehensive understanding of image details. To address these limitations, this paper introduces VGR, a novel reasoning multimodal large language model (MLLM) with enhanced fine-grained visual perception capabilities. Unlike traditional MLLMs that answer the question or reasoning solely on the language space, our VGR first detects relevant regions that may help to solve problems, and then provides precise answers based on replayed image regions. To achieve this, we conduct a large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed vision grounding and language deduction. The inference pipeline of VGR allows the model to choose bounding boxes for visual reference and a replay stage is introduced to integrates the corresponding regions into the reasoning process, enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline show that VGR achieves superior performance on multi-modal benchmarks requiring comprehensive image detail understanding. Compared to the baseline, VGR uses only 30\% of the image token count while delivering scores of +4.1 on MMStar, +7.1 on AI2D, and a +12.9 improvement on ChartQA.
PDF172June 17, 2025