ChatPaper.aiChatPaper

VLM-R^3: Reconhecimento de Regiões, Raciocínio e Refinamento para Aprimoramento de Cadeia de Pensamento Multimodal

VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

May 22, 2025
Autores: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI

Resumo

Recentemente, modelos multimodais de linguagem (MLLMs) baseados em raciocínio alcançaram um certo sucesso na geração de cadeias de raciocínio textual de longa duração. No entanto, eles ainda enfrentam dificuldades com tarefas complexas que exigem foco dinâmico e iterativo em regiões visuais, bem como a revisão dessas regiões para alcançar uma fundamentação precisa do raciocínio textual em evidências visuais. Apresentamos o VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), um framework que capacita um MLLM com a capacidade de (i) decidir quando evidências visuais adicionais são necessárias, (ii) determinar onde fundamentar dentro da imagem e (iii) integrar de forma contínua o conteúdo relevante da sub-imagem em uma cadeia de pensamento intercalada. O núcleo do nosso método é o Region-Conditioned Reinforcement Policy Optimization (R-GRPO), um paradigma de treinamento que recompensa o modelo por selecionar regiões informativas, formular transformações apropriadas (por exemplo, recorte, zoom) e integrar o contexto visual resultante em etapas subsequentes de raciocínio. Para inicializar essa política, compilamos um corpus modesto, mas cuidadosamente curado, chamado Visuo-Lingual Interleaved Rationale (VLIR), que fornece supervisão em nível de etapa sobre a seleção de regiões e justificativa textual. Experimentos extensivos no MathVista, ScienceQA e outros benchmarks mostram que o VLM-R^3 estabelece um novo estado da arte em configurações zero-shot e few-shot, com os maiores ganhos aparecendo em questões que exigem raciocínio espacial sutil ou extração de pistas visuais refinadas.
English
Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), a framework that equips an MLLM with the ability to (i) decide when additional visual evidence is needed, (ii) determine where to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.
PDF125December 14, 2025