GRPO Fidèle : Amélioration du raisonnement spatial visuel dans les modèles de langage multimodaux par optimisation de politique sous contrainte

Résumé

Les modèles de raisonnement multimodal (MRM) entraînés par apprentissage par renforcement avec récompenses vérifiables (RLVR) montrent une précision améliorée sur les benchmarks de raisonnement visuel. Cependant, nous observons que les gains de précision s'accompagnent souvent d'une dégradation de la qualité du raisonnement : les traces de raisonnement en chaîne (CoT) générées sont fréquemment incohérentes avec la réponse finale et faiblement ancrées dans les preuves visuelles. Nous étudions systématiquement ce phénomène sur sept benchmarks difficiles de raisonnement spatial en conditions réelles et constatons qu'il affecte les MRM contemporains tels que ViGoRL-Spatial, TreeVGR ainsi que nos propres modèles entraînés avec l'Optimisation de Politique Relative par Groupe (GRPO) standard. Nous caractérisons la qualité du raisonnement CoT selon deux axes complémentaires : la "cohérence logique" (le CoT implique-t-il la réponse finale ?) et l'"ancrage visuel" (chaque étape de raisonnement décrit-elle avec précision les objets, attributs et relations spatiales dans l'image ?). Pour y remédier, nous proposons FGRPO, une variante de GRPO qui impose la cohérence et l'ancrage comme contraintes via l'ascension duale lagrangienne. FGRPO intègre des contraintes de cohérence et d'ancrage au niveau du lot dans le calcul de l'avantage au sein d'un groupe, ajustant de manière adaptative l'importance relative des contraintes durant l'optimisation. Nous évaluons FGRPO sur les architectures Qwen2.5-VL-7B et 3B sur sept jeux de données spatiaux. Nos résultats montrent que FGRPO améliore substantiellement la qualité du raisonnement, réduisant le taux d'incohérence de 24,5% à 1,7% et augmentant les scores d'ancrage visuel de +13%. Il améliore également la précision de la réponse finale par rapport au GRPO simple, démontrant qu'un raisonnement fidèle permet de meilleures réponses.

English

Multimodal reasoning models (MRMs) trained with reinforcement learning with verifiable rewards (RLVR) show improved accuracy on visual reasoning benchmarks. However, we observe that accuracy gains often come at the cost of reasoning quality: generated Chain-of-Thought (CoT) traces are frequently inconsistent with the final answer and poorly grounded in the visual evidence. We systematically study this phenomenon across seven challenging real-world spatial reasoning benchmarks and find that it affects contemporary MRMs such as ViGoRL-Spatial, TreeVGR as well as our own models trained with standard Group Relative Policy Optimization (GRPO). We characterize CoT reasoning quality along two complementary axes: "logical consistency" (does the CoT entail the final answer?) and "visual grounding" (does each reasoning step accurately describe objects, attributes, and spatial relationships in the image?). To address this, we propose Faithful GRPO (FGRPO), a variant of GRPO that enforces consistency and grounding as constraints via Lagrangian dual ascent. FGRPO incorporates batch-level consistency and grounding constraints into the advantage computation within a group, adaptively adjusting the relative importance of constraints during optimization. We evaluate FGRPO on Qwen2.5-VL-7B and 3B backbones across seven spatial datasets. Our results show that FGRPO substantially improves reasoning quality, reducing the inconsistency rate from 24.5% to 1.7% and improving visual grounding scores by +13%. It also improves final answer accuracy over simple GRPO, demonstrating that faithful reasoning enables better answers.

GRPO Fidèle : Amélioration du raisonnement spatial visuel dans les modèles de langage multimodaux par optimisation de politique sous contrainte

Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

Résumé

Support