Getrouwe GRPO: Verbetering van Visueel Ruimtelijk Redeneren in Multimodale Taalmodellen via Beleidsoptimalisatie met Beperkingen

Samenvatting

Multimodale redeneermodellen (MRM's) die zijn getraind met reinforcement learning met verifieerbare beloningen (RLVR) vertonen een verbeterde nauwkeurigheid op visuele redeneerbenchmarks. Wij observeren echter dat nauwkeurigheidswinst vaak ten koste gaat van de redeneerkwaliteit: gegenereerde Chain-of-Thought (CoT)-sporen zijn vaak inconsistent met het uiteindelijke antwoord en slecht verankerd in het visuele bewijs. Wij bestuderen dit fenomeen systematisch in zeven uitdagende real-world ruimtelijke redeneerbenchmarks en constateren dat het van invloed is op hedendaagse MRM's zoals ViGoRL-Spatial, TreeVGR, evenals op onze eigen modellen die zijn getraind met standaard Group Relative Policy Optimization (GRPO). Wij karakteriseren de CoT-redeneerkwaliteit langs twee complementaire assen: "logische consistentie" (leidt de CoT logisch tot het eindantwoord?) en "visuele verankering" (beschrijft elke redeneerstap objecten, attributen en ruimtelijke relaties in de afbeelding accuraat?). Om dit aan te pakken, stellen wij Faithful GRPO (FGRPO) voor, een variant van GRPO die consistentie en verankering als constraints afdwingt via Lagrangiaanse dual ascent. FGRPO integreert batch-level consistentie- en verankeringsconstraints in de advantage-berekening binnen een groep, en past het relatieve belang van constraints adaptief aan tijdens de optimalisatie. Wij evalueren FGRPO op Qwen2.5-VL-7B en 3B backbones over zeven ruimtelijke datasets. Onze resultaten tonen aan dat FGRPO de redeneerkwaliteit aanzienlijk verbetert: de inconsistentieratio daalt van 24,5% naar 1,7% en de visuele verankeringsscores verbeteren met +13%. Het verbetert ook de nauwkeurigheid van het eindantwoord ten opzichte van eenvoudige GRPO, wat aantoont dat betrouwbaar redeneren betere antwoorden mogelijk maakt.

English

Multimodal reasoning models (MRMs) trained with reinforcement learning with verifiable rewards (RLVR) show improved accuracy on visual reasoning benchmarks. However, we observe that accuracy gains often come at the cost of reasoning quality: generated Chain-of-Thought (CoT) traces are frequently inconsistent with the final answer and poorly grounded in the visual evidence. We systematically study this phenomenon across seven challenging real-world spatial reasoning benchmarks and find that it affects contemporary MRMs such as ViGoRL-Spatial, TreeVGR as well as our own models trained with standard Group Relative Policy Optimization (GRPO). We characterize CoT reasoning quality along two complementary axes: "logical consistency" (does the CoT entail the final answer?) and "visual grounding" (does each reasoning step accurately describe objects, attributes, and spatial relationships in the image?). To address this, we propose Faithful GRPO (FGRPO), a variant of GRPO that enforces consistency and grounding as constraints via Lagrangian dual ascent. FGRPO incorporates batch-level consistency and grounding constraints into the advantage computation within a group, adaptively adjusting the relative importance of constraints during optimization. We evaluate FGRPO on Qwen2.5-VL-7B and 3B backbones across seven spatial datasets. Our results show that FGRPO substantially improves reasoning quality, reducing the inconsistency rate from 24.5% to 1.7% and improving visual grounding scores by +13%. It also improves final answer accuracy over simple GRPO, demonstrating that faithful reasoning enables better answers.

Getrouwe GRPO: Verbetering van Visueel Ruimtelijk Redeneren in Multimodale Taalmodellen via Beleidsoptimalisatie met Beperkingen

Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

Samenvatting

Support