VLM-R^3: Regioherkenning, Redenering en Verfijning voor Verbeterde Multimodale Gedachtegang
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
May 22, 2025
Auteurs: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI
Samenvatting
Onlangs hebben reasoning-based MLLM's enig succes geboekt in het genereren van lange tekstuele redeneerketens. Ze hebben echter nog steeds moeite met complexe taken die dynamisch en iteratief focussen op en terugkeren naar visuele regio's vereisen om een precieze verankering van tekstuele redenering in visueel bewijs te bereiken. Wij introduceren VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), een raamwerk dat een MLLM uitrust met de mogelijkheid om (i) te beslissen wanneer aanvullend visueel bewijs nodig is, (ii) te bepalen waar in de afbeelding verankerd moet worden, en (iii) de relevante sub-afbeeldingsinhoud naadloos te integreren in een interleaved chain-of-thought. De kern van onze methode is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), een trainingsparadigma dat het model beloont voor het selecteren van informatieve regio's, het formuleren van geschikte transformaties (bijv. bijsnijden, inzoomen), en het integreren van de resulterende visuele context in volgende redeneerstappen. Om dit beleid op te starten, hebben we een bescheiden maar zorgvuldig samengesteld Visuo-Lingual Interleaved Rationale (VLIR) corpus samengesteld dat stap-voor-stap supervisie biedt op regio-selectie en tekstuele rechtvaardiging. Uitgebreide experimenten op MathVista, ScienceQA en andere benchmarks tonen aan dat VLM-R^3 een nieuwe state of the art vestigt in zero-shot en few-shot settings, met de grootste vooruitgang op vragen die subtiele ruimtelijke redenering of fijnmazige extractie van visuele aanwijzingen vereisen.
English
Recently, reasoning-based MLLMs have achieved a degree of success in
generating long-form textual reasoning chains. However, they still struggle
with complex tasks that necessitate dynamic and iterative focusing on and
revisiting of visual regions to achieve precise grounding of textual reasoning
in visual evidence. We introduce VLM-R^3 (Visual
Language Model with Region Recognition and
Reasoning), a framework that equips an MLLM with the ability to (i)
decide when additional visual evidence is needed, (ii) determine
where to ground within the image, and (iii) seamlessly weave the
relevant sub-image content back into an interleaved chain-of-thought. The core
of our method is Region-Conditioned Reinforcement Policy Optimization
(R-GRPO), a training paradigm that rewards the model for selecting informative
regions, formulating appropriate transformations (e.g.\ crop, zoom), and
integrating the resulting visual context into subsequent reasoning steps. To
bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual
Interleaved Rationale (VLIR) corpus that provides step-level supervision on
region selection and textual justification. Extensive experiments on MathVista,
ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art
in zero-shot and few-shot settings, with the largest gains appearing on
questions demanding subtle spatial reasoning or fine-grained visual cue
extraction.