VLM-R^3: Regioherkenning, Redenering en Verfijning voor Verbeterde Multimodale Gedachtegang

Samenvatting

Onlangs hebben reasoning-based MLLM's enig succes geboekt in het genereren van lange tekstuele redeneerketens. Ze hebben echter nog steeds moeite met complexe taken die dynamisch en iteratief focussen op en terugkeren naar visuele regio's vereisen om een precieze verankering van tekstuele redenering in visueel bewijs te bereiken. Wij introduceren VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), een raamwerk dat een MLLM uitrust met de mogelijkheid om (i) te beslissen wanneer aanvullend visueel bewijs nodig is, (ii) te bepalen waar in de afbeelding verankerd moet worden, en (iii) de relevante sub-afbeeldingsinhoud naadloos te integreren in een interleaved chain-of-thought. De kern van onze methode is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), een trainingsparadigma dat het model beloont voor het selecteren van informatieve regio's, het formuleren van geschikte transformaties (bijv. bijsnijden, inzoomen), en het integreren van de resulterende visuele context in volgende redeneerstappen. Om dit beleid op te starten, hebben we een bescheiden maar zorgvuldig samengesteld Visuo-Lingual Interleaved Rationale (VLIR) corpus samengesteld dat stap-voor-stap supervisie biedt op regio-selectie en tekstuele rechtvaardiging. Uitgebreide experimenten op MathVista, ScienceQA en andere benchmarks tonen aan dat VLM-R^3 een nieuwe state of the art vestigt in zero-shot en few-shot settings, met de grootste vooruitgang op vragen die subtiele ruimtelijke redenering of fijnmazige extractie van visuele aanwijzingen vereisen.

English

Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), a framework that equips an MLLM with the ability to (i) decide when additional visual evidence is needed, (ii) determine where to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.

VLM-R^3: Regioherkenning, Redenering en Verfijning voor Verbeterde Multimodale Gedachtegang

VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

Samenvatting

Support