ChatPaper.aiChatPaper

Curriculum Puzzle GRPO pour le Raisonnement Centré sur la Vision

Puzzle Curriculum GRPO for Vision-Centric Reasoning

December 16, 2025
papers.authors: Ahmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk
cs.AI

papers.abstract

Les approches récentes d'apprentissage par renforcement (RL) comme le GRPO supervisé par les résultats ont fait progresser le raisonnement par enchaînement de pensées dans les modèles de vision et de langage (VLM), mais des problèmes clés persistent : (i) la dépendance à des annotations manuelles coûteuses et bruitées ou à des vérificateurs externes ; (ii) les schémas de récompense plats et clairsemés dans le GRPO ; et (iii) l'incohérence logique entre le raisonnement d'une chaîne et sa réponse finale. Nous présentons Puzzle Curriculum GRPO (PC-GRPO), une méthode sans supervision pour le RL avec Récompenses Vérifiables (RLVR) qui renforce le raisonnement visuel dans les VLM sans annotations ni vérificateurs externes. PC-GRPO remplace les étiquettes par trois environnements d'énigmes auto-supervisés : PatchFit, Rotation (avec récompenses binaires) et Jigsaw (avec un crédit partiel gradué atténuant la parcimonie des récompenses). Pour contrer les récompenses plates et la disparition des avantages relatifs au groupe, nous introduisons un curriculum adaptatif à la difficulté qui pondère dynamiquement les échantillons et culmine à une difficulté moyenne. Nous surveillons en outre la Cohérence Raisonnement-Réponse (RAC) pendant le post-entraînement : conformément aux rapports sur le GRPO standard dans les LLM, la RAC augmente généralement tôt puis se dégrade ; notre curriculum retarde ce déclin, et les schémas de récompense renforçant la cohérence améliorent encore la RAC. La RAC est corrélée avec la précision en aval. Sur divers benchmarks et avec des architectures Qwen-7B et Qwen-3B, PC-GRPO améliore la qualité du raisonnement, la stabilité de l'entraînement et la précision sur la tâche finale, offrant une voie pratique vers un post-entraînement par RL scalable, vérifiable et interprétable pour les VLM.
English
Recent reinforcement learning (RL) approaches like outcome-supervised GRPO have advanced chain-of-thought reasoning in Vision Language Models (VLMs), yet key issues linger: (i) reliance on costly and noisy hand-curated annotations or external verifiers; (ii) flat and sparse reward schemes in GRPO; and (iii) logical inconsistency between a chain's reasoning and its final answer. We present Puzzle Curriculum GRPO (PC-GRPO), a supervision-free recipe for RL with Verifiable Rewards (RLVR) that strengthens visual reasoning in VLMs without annotations or external verifiers. PC-GRPO replaces labels with three self-supervised puzzle environments: PatchFit, Rotation (with binary rewards) and Jigsaw (with graded partial credit mitigating reward sparsity). To counter flat rewards and vanishing group-relative advantages, we introduce a difficulty-aware curriculum that dynamically weights samples and peaks at medium difficulty. We further monitor Reasoning-Answer Consistency (RAC) during post-training: mirroring reports for vanilla GRPO in LLMs, RAC typically rises early then degrades; our curriculum delays this decline, and consistency-enforcing reward schemes further boost RAC. RAC correlates with downstream accuracy. Across diverse benchmarks and on Qwen-7B and Qwen-3B backbones, PC-GRPO improves reasoning quality, training stability, and end-task accuracy, offering a practical path to scalable, verifiable, and interpretable RL post-training for VLMs.
PDF302December 19, 2025