GRPO Fiel: Mejora del Razonamiento Espacial Visual en Modelos de Lenguaje Multimodales mediante Optimización de Políticas con Restricciones
Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization
April 9, 2026
Autores: Sai Srinivas Kancheti, Aditya Kanade, Rohit Sinha, Vineeth N Balasubramanian, Tanuja Ganu
cs.AI
Resumen
Los modelos de razonamiento multimodal (MRM) entrenados con aprendizaje por refuerzo con recompensas verificables (RLVR) muestran una precisión mejorada en benchmarks de razonamiento visual. Sin embargo, observamos que las ganancias en precisión a menudo se logran a costa de la calidad del razonamiento: las trazas de Cadena de Pensamiento (CoT) generadas frecuentemente son inconsistentes con la respuesta final y están pobremente fundamentadas en la evidencia visual. Estudiamos sistemáticamente este fenómeno en siete desafiantes benchmarks de razonamiento espacial del mundo real y encontramos que afecta a MRM contemporáneos como ViGoRL-Spatial, TreeVGR, así como a nuestros propios modelos entrenados con la Optimización de Políticas Relativas de Grupo (GRPO) estándar. Caracterizamos la calidad del razonamiento CoT a lo largo de dos ejes complementarios: "consistencia lógica" (¿la CoT implica la respuesta final?) y "fundamentación visual" (¿cada paso del razonamiento describe con precisión objetos, atributos y relaciones espaciales en la imagen?). Para abordar esto, proponemos GRPO Fiel (FGRPO), una variante de GRPO que aplica la consistencia y la fundamentación como restricciones mediante el ascenso dual Lagrangiano. FGRPO incorpora restricciones de consistencia y fundamentación a nivel de lote en el cálculo de la ventaja dentro de un grupo, ajustando adaptativamente la importancia relativa de las restricciones durante la optimización. Evaluamos FGRPO en backbones Qwen2.5-VL-7B y 3B a través de siete conjuntos de datos espaciales. Nuestros resultados muestran que FGRPO mejora sustancialmente la calidad del razonamiento, reduciendo la tasa de inconsistencia del 24.5% al 1.7% y mejorando las puntuaciones de fundamentación visual en +13%. También mejora la precisión de la respuesta final respecto al GRPO simple, demostrando que un razonamiento fiel permite obtener mejores respuestas.
English
Multimodal reasoning models (MRMs) trained with reinforcement learning with verifiable rewards (RLVR) show improved accuracy on visual reasoning benchmarks. However, we observe that accuracy gains often come at the cost of reasoning quality: generated Chain-of-Thought (CoT) traces are frequently inconsistent with the final answer and poorly grounded in the visual evidence. We systematically study this phenomenon across seven challenging real-world spatial reasoning benchmarks and find that it affects contemporary MRMs such as ViGoRL-Spatial, TreeVGR as well as our own models trained with standard Group Relative Policy Optimization (GRPO). We characterize CoT reasoning quality along two complementary axes: "logical consistency" (does the CoT entail the final answer?) and "visual grounding" (does each reasoning step accurately describe objects, attributes, and spatial relationships in the image?). To address this, we propose Faithful GRPO (FGRPO), a variant of GRPO that enforces consistency and grounding as constraints via Lagrangian dual ascent. FGRPO incorporates batch-level consistency and grounding constraints into the advantage computation within a group, adaptively adjusting the relative importance of constraints during optimization. We evaluate FGRPO on Qwen2.5-VL-7B and 3B backbones across seven spatial datasets. Our results show that FGRPO substantially improves reasoning quality, reducing the inconsistency rate from 24.5% to 1.7% and improving visual grounding scores by +13%. It also improves final answer accuracy over simple GRPO, demonstrating that faithful reasoning enables better answers.