VLM-R^3 : Reconnaissance, Raisonnement et Raffinement de Régions pour une Chaîne de Pensée Multimodale Améliorée

papers.abstract

Récemment, les modèles de langage multimodaux (MLLM) basés sur le raisonnement ont connu un certain succès dans la génération de chaînes de raisonnement textuel longues. Cependant, ils peinent encore à accomplir des tâches complexes nécessitant une focalisation dynamique et itérative sur des régions visuelles, ainsi que leur réexamen, afin d'ancrer précisément le raisonnement textuel dans des preuves visuelles. Nous présentons VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), un cadre qui dote un MLLM de la capacité à (i) décider quand des preuves visuelles supplémentaires sont nécessaires, (ii) déterminer où s'ancrer dans l'image, et (iii) intégrer de manière fluide le contenu pertinent des sous-images dans une chaîne de pensée entrelacée. Le cœur de notre méthode repose sur l'Optimisation de Politique de Renforcement Conditionnée par les Régions (R-GRPO), un paradigme d'entraînement qui récompense le modèle pour la sélection de régions informatives, la formulation de transformations appropriées (par ex. recadrage, zoom), et l'intégration du contexte visuel résultant dans les étapes de raisonnement suivantes. Pour amorcer cette politique, nous avons compilé un corpus modeste mais soigneusement sélectionné de Raisonnements Entrelacés Visuo-Linguistiques (VLIR), qui fournit une supervision au niveau des étapes pour la sélection des régions et la justification textuelle. Des expériences approfondies sur MathVista, ScienceQA et d'autres benchmarks montrent que VLM-R^3 établit un nouvel état de l'art dans les configurations zero-shot et few-shot, avec les gains les plus importants sur les questions exigeant un raisonnement spatial subtil ou une extraction fine d'indices visuels.

English

Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), a framework that equips an MLLM with the ability to (i) decide when additional visual evidence is needed, (ii) determine where to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.

VLM-R^3 : Reconnaissance, Raisonnement et Raffinement de Régions pour une Chaîne de Pensée Multimodale Améliorée

VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

papers.abstract

Support