ChatPaper.aiChatPaper

VLM-R^3: Regionenerkennung, -schlussfolgerung und -verfeinerung für verbesserte multimodale Gedankenketten

VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

May 22, 2025
Autoren: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI

Zusammenfassung

Kürzlich haben reasoning-basierte MLLMs (Multimodale Sprachmodelle) einen gewissen Erfolg bei der Generierung langfänger textueller Argumentationsketten erzielt. Dennoch haben sie weiterhin Schwierigkeiten mit komplexen Aufgaben, die ein dynamisches und iteratives Fokussieren und erneutes Betrachten von Bildregionen erfordern, um eine präzise Verankerung der textuellen Argumentation in visuellen Beweisen zu erreichen. Wir stellen VLM-R^3 (Visual Language Model with Region Recognition and Reasoning) vor, ein Framework, das ein MLLM mit der Fähigkeit ausstattet, (i) zu entscheiden, wann zusätzliche visuelle Beweise benötigt werden, (ii) zu bestimmen, wo innerhalb des Bildes verankert werden soll, und (iii) die relevanten Teilbildinhalte nahtlos in eine verschachtelte Gedankenkette einzufügen. Der Kern unserer Methode ist die Region-Conditioned Reinforcement Policy Optimization (R-GRPO), ein Trainingsparadigma, das das Modell dafür belohnt, informative Regionen auszuwählen, geeignete Transformationen (z.B. Zuschneiden, Zoomen) zu formulieren und den daraus resultierenden visuellen Kontext in nachfolgende Argumentationsschritte zu integrieren. Um diese Policy zu initialisieren, haben wir einen bescheidenen, aber sorgfältig kuratierten Visuo-Lingual Interleaved Rationale (VLIR)-Korpus zusammengestellt, der eine schrittweise Überwachung der Regionenauswahl und textuellen Begründung bietet. Umfangreiche Experimente auf MathVista, ScienceQA und anderen Benchmarks zeigen, dass VLM-R^3 einen neuen Stand der Technik in Zero-Shot- und Few-Shot-Szenarien setzt, wobei die größten Fortschritte bei Fragen zu beobachten sind, die subtiles räumliches Denken oder die Extraktion fein abgestufter visueller Hinweise erfordern.
English
Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), a framework that equips an MLLM with the ability to (i) decide when additional visual evidence is needed, (ii) determine where to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.

Summary

AI-Generated Summary

PDF62May 23, 2025