VLM-R^3: Reconhecimento de Regiões, Raciocínio e Refinamento para Aprimoramento de Cadeia de Pensamento Multimodal
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
May 22, 2025
Autores: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI
Resumo
Recentemente, modelos multimodais de linguagem (MLLMs) baseados em raciocínio alcançaram um certo sucesso na geração de cadeias de raciocínio textual de longa duração. No entanto, eles ainda enfrentam dificuldades com tarefas complexas que exigem foco dinâmico e iterativo em regiões visuais, bem como a revisão dessas regiões para alcançar uma fundamentação precisa do raciocínio textual em evidências visuais. Apresentamos o VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), um framework que capacita um MLLM com a capacidade de (i) decidir quando evidências visuais adicionais são necessárias, (ii) determinar onde fundamentar dentro da imagem e (iii) integrar de forma contínua o conteúdo relevante da sub-imagem em uma cadeia de pensamento intercalada. O núcleo do nosso método é o Region-Conditioned Reinforcement Policy Optimization (R-GRPO), um paradigma de treinamento que recompensa o modelo por selecionar regiões informativas, formular transformações apropriadas (por exemplo, recorte, zoom) e integrar o contexto visual resultante em etapas subsequentes de raciocínio. Para inicializar essa política, compilamos um corpus modesto, mas cuidadosamente curado, chamado Visuo-Lingual Interleaved Rationale (VLIR), que fornece supervisão em nível de etapa sobre a seleção de regiões e justificativa textual. Experimentos extensivos no MathVista, ScienceQA e outros benchmarks mostram que o VLM-R^3 estabelece um novo estado da arte em configurações zero-shot e few-shot, com os maiores ganhos aparecendo em questões que exigem raciocínio espacial sutil ou extração de pistas visuais refinadas.
English
Recently, reasoning-based MLLMs have achieved a degree of success in
generating long-form textual reasoning chains. However, they still struggle
with complex tasks that necessitate dynamic and iterative focusing on and
revisiting of visual regions to achieve precise grounding of textual reasoning
in visual evidence. We introduce VLM-R^3 (Visual
Language Model with Region Recognition and
Reasoning), a framework that equips an MLLM with the ability to (i)
decide when additional visual evidence is needed, (ii) determine
where to ground within the image, and (iii) seamlessly weave the
relevant sub-image content back into an interleaved chain-of-thought. The core
of our method is Region-Conditioned Reinforcement Policy Optimization
(R-GRPO), a training paradigm that rewards the model for selecting informative
regions, formulating appropriate transformations (e.g.\ crop, zoom), and
integrating the resulting visual context into subsequent reasoning steps. To
bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual
Interleaved Rationale (VLIR) corpus that provides step-level supervision on
region selection and textual justification. Extensive experiments on MathVista,
ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art
in zero-shot and few-shot settings, with the largest gains appearing on
questions demanding subtle spatial reasoning or fine-grained visual cue
extraction.