Faithful GRPO: Verbesserung des visuell-räumlichen Denkens in multimodalen Sprachmodellen durch eingeschränkte Policy-Optimierung

Zusammenfassung

Multimodale Reasoning-Modelle (MRMs), die mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) trainiert wurden, zeigen eine verbesserte Genauigkeit auf Benchmarks für visuelles Reasoning. Wir beobachten jedoch, dass Genauigkeitsgewinne häufig auf Kosten der Reasoning-Qualität gehen: Erzeugte Chain-of-Thought (CoT)-Spuren sind oft inkonsistent mit der endgültigen Antwort und nur unzureichend in den visuellen Beweisen verankert. Wir untersuchen dieses Phänomen systematisch anhand von sieben anspruchsvollen räumlichen Reasoning-Benchmarks aus der realen Welt und stellen fest, dass es zeitgenössische MRMs wie ViGoRL-Spatial, TreeVGR sowie unsere eigenen, mit Standard-Group Relative Policy Optimization (GRPO) trainierten Modelle betrifft. Wir charakterisieren die CoT-Reasoning-Qualität entlang zweier komplementärer Achsen: "logische Konsistenz" (folgt die endgültige Antwort logisch aus dem CoT?) und "visuelle Verankerung" (beschreibt jeder Reasoning-Schritt Objekte, Attribute und räumliche Beziehungen im Bild korrekt?). Um dies zu adressieren, schlagen wir Faithful GRPO (FGRPO) vor, eine Variante von GRPO, die Konsistenz und Verankerung als Nebenbedingungen via Lagrangian Dual Ascent durchsetzt. FGRPO integriert Batch-weite Konsistenz- und Verankerungs-Nebenbedingungen in die Berechnung des Vorteils innerhalb einer Gruppe und passt die relative Bedeutung der Nebenbedingungen während der Optimierung adaptiv an. Wir evaluieren FGRPO auf Qwen2.5-VL-7B- und 3B-Backbones über sieben räumliche Datensätze hinweg. Unsere Ergebnisse zeigen, dass FGRPO die Reasoning-Qualität erheblich verbessert: Die Inkonsistenzrate sinkt von 24,5 % auf 1,7 % und die Werte für die visuelle Verankerung verbessern sich um +13 %. Gleichzeitig verbessert es die Genauigkeit der endgültigen Antwort im Vergleich zu einfachem GRPO, was demonstriert, dass vertrauenswürdiges Reasoning zu besseren Antworten führt.

English

Multimodal reasoning models (MRMs) trained with reinforcement learning with verifiable rewards (RLVR) show improved accuracy on visual reasoning benchmarks. However, we observe that accuracy gains often come at the cost of reasoning quality: generated Chain-of-Thought (CoT) traces are frequently inconsistent with the final answer and poorly grounded in the visual evidence. We systematically study this phenomenon across seven challenging real-world spatial reasoning benchmarks and find that it affects contemporary MRMs such as ViGoRL-Spatial, TreeVGR as well as our own models trained with standard Group Relative Policy Optimization (GRPO). We characterize CoT reasoning quality along two complementary axes: "logical consistency" (does the CoT entail the final answer?) and "visual grounding" (does each reasoning step accurately describe objects, attributes, and spatial relationships in the image?). To address this, we propose Faithful GRPO (FGRPO), a variant of GRPO that enforces consistency and grounding as constraints via Lagrangian dual ascent. FGRPO incorporates batch-level consistency and grounding constraints into the advantage computation within a group, adaptively adjusting the relative importance of constraints during optimization. We evaluate FGRPO on Qwen2.5-VL-7B and 3B backbones across seven spatial datasets. Our results show that FGRPO substantially improves reasoning quality, reducing the inconsistency rate from 24.5% to 1.7% and improving visual grounding scores by +13%. It also improves final answer accuracy over simple GRPO, demonstrating that faithful reasoning enables better answers.

Faithful GRPO: Verbesserung des visuell-räumlichen Denkens in multimodalen Sprachmodellen durch eingeschränkte Policy-Optimierung

Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

Zusammenfassung

Support