VLM-R^3 : Reconnaissance, Raisonnement et Raffinement de Régions pour une Chaîne de Pensée Multimodale Améliorée
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
May 22, 2025
Auteurs: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI
Résumé
Récemment, les modèles de langage multimodaux (MLLM) basés sur le raisonnement ont connu un certain succès dans la génération de chaînes de raisonnement textuel longues. Cependant, ils peinent encore à accomplir des tâches complexes nécessitant une focalisation dynamique et itérative sur des régions visuelles, ainsi que leur réexamen, afin d'ancrer précisément le raisonnement textuel dans des preuves visuelles. Nous présentons VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), un cadre qui dote un MLLM de la capacité à (i) décider quand des preuves visuelles supplémentaires sont nécessaires, (ii) déterminer où s'ancrer dans l'image, et (iii) intégrer de manière fluide le contenu pertinent des sous-images dans une chaîne de pensée entrelacée. Le cœur de notre méthode repose sur l'Optimisation de Politique de Renforcement Conditionnée par les Régions (R-GRPO), un paradigme d'entraînement qui récompense le modèle pour la sélection de régions informatives, la formulation de transformations appropriées (par ex. recadrage, zoom), et l'intégration du contexte visuel résultant dans les étapes de raisonnement suivantes. Pour amorcer cette politique, nous avons compilé un corpus modeste mais soigneusement sélectionné de Raisonnements Entrelacés Visuo-Linguistiques (VLIR), qui fournit une supervision au niveau des étapes pour la sélection des régions et la justification textuelle. Des expériences approfondies sur MathVista, ScienceQA et d'autres benchmarks montrent que VLM-R^3 établit un nouvel état de l'art dans les configurations zero-shot et few-shot, avec les gains les plus importants sur les questions exigeant un raisonnement spatial subtil ou une extraction fine d'indices visuels.
English
Recently, reasoning-based MLLMs have achieved a degree of success in
generating long-form textual reasoning chains. However, they still struggle
with complex tasks that necessitate dynamic and iterative focusing on and
revisiting of visual regions to achieve precise grounding of textual reasoning
in visual evidence. We introduce VLM-R^3 (Visual
Language Model with Region Recognition and
Reasoning), a framework that equips an MLLM with the ability to (i)
decide when additional visual evidence is needed, (ii) determine
where to ground within the image, and (iii) seamlessly weave the
relevant sub-image content back into an interleaved chain-of-thought. The core
of our method is Region-Conditioned Reinforcement Policy Optimization
(R-GRPO), a training paradigm that rewards the model for selecting informative
regions, formulating appropriate transformations (e.g.\ crop, zoom), and
integrating the resulting visual context into subsequent reasoning steps. To
bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual
Interleaved Rationale (VLIR) corpus that provides step-level supervision on
region selection and textual justification. Extensive experiments on MathVista,
ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art
in zero-shot and few-shot settings, with the largest gains appearing on
questions demanding subtle spatial reasoning or fine-grained visual cue
extraction.Summary
AI-Generated Summary