ChatPaper.aiChatPaper

Puzzelcurriculum GRPO voor Visie-Gecentreerd Redeneren

Puzzle Curriculum GRPO for Vision-Centric Reasoning

December 16, 2025
Auteurs: Ahmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk
cs.AI

Samenvatting

Recente reinforcement learning (RL)-benaderingen zoals outcome-supervised GRPO hebben keten-van-gedachte-redenering in Vision Language Models (VLMs) verbeterd, maar belangrijke problemen blijven bestaan: (i) afhankelijkheid van kostbare en rumoerige handmatig samengestelde annotaties of externe verifiers; (ii) vlakke en schaarse beloningsschema's in GRPO; en (iii) logische inconsistentie tussen de redenering van een keten en het uiteindelijke antwoord. Wij presenteren Puzzle Curriculum GRPO (PC-GRPO), een supervisievrije methode voor RL met Verifieerbare Beloningen (RLVR) die visuele redenering in VLMs versterkt zonder annotaties of externe verifiers. PC-GRPO vervangt labels door drie zelf-gesuperviseerde puzzelomgevingen: PatchFit, Rotatie (met binaire beloningen) en Jigsaw (met gegradeerde deelpunten die de beloningsschaarste verzachten). Om vlakke beloningen en verdwijnende groep-gerelateerde voordelen tegen te gaan, introduceren we een moeilijkheidsgraad-bewust curriculum dat samples dynamisch weegt en een piek bereikt bij medium moeilijkheidsgraad. We monitoren verder Reasoning-Answer Consistency (RAC) tijdens post-training: in lijn met rapporten voor standaard GRPO in LLMs, stijgt RAC typisch vroeg en degradeert dan; ons curriculum vertraagt deze daling, en consistentie-afdwingende beloningsschema's verhogen RAC verder. RAC correleert met downstream-nauwkeurigheid. Over diverse benchmarks en op Qwen-7B en Qwen-3B backbones heen, verbetert PC-GRPO de redeneerkwaliteit, trainstabiliteit en eindtaaknauwkeurigheid, en biedt zo een praktisch pad naar schaalbare, verifieerbare en interpreteerbare RL-post-training voor VLMs.
English
Recent reinforcement learning (RL) approaches like outcome-supervised GRPO have advanced chain-of-thought reasoning in Vision Language Models (VLMs), yet key issues linger: (i) reliance on costly and noisy hand-curated annotations or external verifiers; (ii) flat and sparse reward schemes in GRPO; and (iii) logical inconsistency between a chain's reasoning and its final answer. We present Puzzle Curriculum GRPO (PC-GRPO), a supervision-free recipe for RL with Verifiable Rewards (RLVR) that strengthens visual reasoning in VLMs without annotations or external verifiers. PC-GRPO replaces labels with three self-supervised puzzle environments: PatchFit, Rotation (with binary rewards) and Jigsaw (with graded partial credit mitigating reward sparsity). To counter flat rewards and vanishing group-relative advantages, we introduce a difficulty-aware curriculum that dynamically weights samples and peaks at medium difficulty. We further monitor Reasoning-Answer Consistency (RAC) during post-training: mirroring reports for vanilla GRPO in LLMs, RAC typically rises early then degrades; our curriculum delays this decline, and consistency-enforcing reward schemes further boost RAC. RAC correlates with downstream accuracy. Across diverse benchmarks and on Qwen-7B and Qwen-3B backbones, PC-GRPO improves reasoning quality, training stability, and end-task accuracy, offering a practical path to scalable, verifiable, and interpretable RL post-training for VLMs.
PDF302December 19, 2025