GRPO Fiel: Aprimorando o Raciocínio Espacial Visual em Modelos de Linguagem Multimodais por meio de Otimização de Políticas com Restrições
Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization
April 9, 2026
Autores: Sai Srinivas Kancheti, Aditya Kanade, Rohit Sinha, Vineeth N Balasubramanian, Tanuja Ganu
cs.AI
Resumo
Os modelos de raciocínio multimodal (MRMs) treinados com aprendizagem por reforço com recompensas verificáveis (RLVR) demonstram maior precisão em benchmarks de raciocínio visual. No entanto, observamos que os ganhos de precisão frequentemente ocorrem à custa da qualidade do raciocínio: os traços de Cadeia de Pensamento (CoT) gerados são frequentemente inconsistentes com a resposta final e pouco fundamentados na evidência visual. Estudamos sistematicamente este fenômeno em sete benchmarks desafiadores de raciocínio espacial do mundo real e descobrimos que ele afeta MRMs contemporâneos como ViGoRL-Spatial, TreeVGR, bem como nossos próprios modelos treinados com a Otimização de Política Relativa de Grupo (GRPO) padrão. Caracterizamos a qualidade do raciocínio CoT ao longo de dois eixos complementares: "consistência lógica" (a CoT implica a resposta final?) e "fundamentação visual" (cada etapa do raciocínio descreve com precisão objetos, atributos e relações espaciais na imagem?). Para resolver isso, propomos o Faithful GRPO (FGRPO), uma variante do GRPO que impõe a consistência e a fundamentação como restrições via subida dual Lagrangiana. O FGRPO incorpora restrições de consistência e fundamentação a nível de *batch* no cálculo da vantagem dentro de um grupo, ajustando adaptativamente a importância relativa das restrições durante a otimização. Avaliamos o FGRPO em backbones Qwen2.5-VL-7B e 3B em sete conjuntos de dados espaciais. Nossos resultados mostram que o FGRPO melhora substancialmente a qualidade do raciocínio, reduzindo a taxa de inconsistência de 24,5% para 1,7% e melhorando as pontuações de fundamentação visual em +13%. Ele também melhora a precisão da resposta final em relação ao GRPO simples, demonstrando que um raciocínio fidedigno permite respostas melhores.
English
Multimodal reasoning models (MRMs) trained with reinforcement learning with verifiable rewards (RLVR) show improved accuracy on visual reasoning benchmarks. However, we observe that accuracy gains often come at the cost of reasoning quality: generated Chain-of-Thought (CoT) traces are frequently inconsistent with the final answer and poorly grounded in the visual evidence. We systematically study this phenomenon across seven challenging real-world spatial reasoning benchmarks and find that it affects contemporary MRMs such as ViGoRL-Spatial, TreeVGR as well as our own models trained with standard Group Relative Policy Optimization (GRPO). We characterize CoT reasoning quality along two complementary axes: "logical consistency" (does the CoT entail the final answer?) and "visual grounding" (does each reasoning step accurately describe objects, attributes, and spatial relationships in the image?). To address this, we propose Faithful GRPO (FGRPO), a variant of GRPO that enforces consistency and grounding as constraints via Lagrangian dual ascent. FGRPO incorporates batch-level consistency and grounding constraints into the advantage computation within a group, adaptively adjusting the relative importance of constraints during optimization. We evaluate FGRPO on Qwen2.5-VL-7B and 3B backbones across seven spatial datasets. Our results show that FGRPO substantially improves reasoning quality, reducing the inconsistency rate from 24.5% to 1.7% and improving visual grounding scores by +13%. It also improves final answer accuracy over simple GRPO, demonstrating that faithful reasoning enables better answers.