GRPO Fedele: Migliorare il Ragionamento Spaziale Visivo nei Modelli Linguistici Multimodali tramite Ottimizzazione Vincolata delle Politiche
Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization
April 9, 2026
Autori: Sai Srinivas Kancheti, Aditya Kanade, Rohit Sinha, Vineeth N Balasubramanian, Tanuja Ganu
cs.AI
Abstract
I modelli di ragionamento multimodale (MRM) addestrati con apprendimento per rinforzo con ricompense verificabili (RLVR) mostrano una maggiore accuratezza sui benchmark di ragionamento visivo. Tuttavia, osserviamo che i guadagni in accuratezza spesso avvengono a scapito della qualità del ragionamento: le tracce di ragionamento a catena (Chain-of-Thought, CoT) generate sono frequentemente inconsistenti con la risposta finale e scarsamente ancorate all'evidenza visiva. Studiamo sistematicamente questo fenomeno su sette impegnativi benchmark di ragionamento spaziale del mondo reale e scopriamo che esso interessa MRM contemporanei come ViGoRL-Spatial, TreeVGR, così come i nostri modelli addestrati con l'ottimizzazione standard della politica di gruppo relativa (Group Relative Policy Optimization, GRPO). Caratterizziamo la qualità del ragionamento CoT lungo due assi complementari: "consistenza logica" (la CoT implica la risposta finale?) e "ancoraggio visivo" (ogni passo del ragionamento descrive accuratamente oggetti, attributi e relazioni spaziali nell'immagine?). Per affrontare questo problema, proponiamo Faithful GRPO (FGRPO), una variante della GRPO che applica la consistenza e l'ancoraggio come vincoli tramite ascesa duale Lagrangiana. La FGRPO incorpora vincoli di consistenza e ancoraggio a livello di batch nel calcolo del vantaggio all'interno di un gruppo, aggiustando in modo adattivo l'importanza relativa dei vincoli durante l'ottimizzazione. Valutiamo la FGRPO su backbone Qwen2.5-VL-7B e 3B attraverso sette dataset spaziali. I nostri risultati mostrano che la FGRPO migliora sostanzialmente la qualità del ragionamento, riducendo il tasso di inconsistenza dal 24,5% all'1,7% e migliorando i punteggi di ancoraggio visivo di +13%. Migliora anche l'accuratezza della risposta finale rispetto alla semplice GRPO, dimostrando che un ragionamento fedele consente risposte migliori.
English
Multimodal reasoning models (MRMs) trained with reinforcement learning with verifiable rewards (RLVR) show improved accuracy on visual reasoning benchmarks. However, we observe that accuracy gains often come at the cost of reasoning quality: generated Chain-of-Thought (CoT) traces are frequently inconsistent with the final answer and poorly grounded in the visual evidence. We systematically study this phenomenon across seven challenging real-world spatial reasoning benchmarks and find that it affects contemporary MRMs such as ViGoRL-Spatial, TreeVGR as well as our own models trained with standard Group Relative Policy Optimization (GRPO). We characterize CoT reasoning quality along two complementary axes: "logical consistency" (does the CoT entail the final answer?) and "visual grounding" (does each reasoning step accurately describe objects, attributes, and spatial relationships in the image?). To address this, we propose Faithful GRPO (FGRPO), a variant of GRPO that enforces consistency and grounding as constraints via Lagrangian dual ascent. FGRPO incorporates batch-level consistency and grounding constraints into the advantage computation within a group, adaptively adjusting the relative importance of constraints during optimization. We evaluate FGRPO on Qwen2.5-VL-7B and 3B backbones across seven spatial datasets. Our results show that FGRPO substantially improves reasoning quality, reducing the inconsistency rate from 24.5% to 1.7% and improving visual grounding scores by +13%. It also improves final answer accuracy over simple GRPO, demonstrating that faithful reasoning enables better answers.