Curriculum Puzzle GRPO per il Ragionamento Vision-Centric
Puzzle Curriculum GRPO for Vision-Centric Reasoning
December 16, 2025
Autori: Ahmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk
cs.AI
Abstract
Approcci recenti di apprendimento per rinforzo (RL) come il GRPO supervisionato dagli outcome hanno fatto progredire il ragionamento a catena del pensiero nei Modelli Linguaggio-Visione (VLM), ma permangono problemi chiave: (i) la dipendenza da annotazioni manuali costose e rumorose o da verificatori esterni; (ii) schemi di ricompensa piatti e sparsi nel GRPO; e (iii) l'incoerenza logica tra il ragionamento di una catena e la sua risposta finale. Presentiamo Puzzle Curriculum GRPO (PC-GRPO), una ricetta senza supervisione per il RL con Ricompense Verificabili (RLVR) che potenzia il ragionamento visivo nei VLM senza annotazioni o verificatori esterni. PC-GRPO sostituisce le etichette con tre ambienti puzzle auto-supervisionati: PatchFit, Rotazione (con ricompense binarie) e Puzzle (con crediti parziali graduati che mitigano la sparsità delle ricompense). Per contrastare le ricompense piatte e i vantaggi relativi di gruppo evanescenti, introduciamo un curriculum consapevole della difficoltà che pondera dinamicamente i campioni e raggiunge il picco a difficoltà media. Monitoriamo inoltre la Coerenza Ragionamento-Risposta (RAC) durante il post-addestramento: riflettendo i risultati riportati per il GRPO standard negli LLM, la RAC tipicamente aumenta inizialmente per poi degradare; il nostro curriculum ritarda questo declino, e schemi di ricompensa che impongono coerenza aumentano ulteriormente la RAC. La RAC è correlata con l'accuratezza a valle. Su diversi benchmark e su architetture Qwen-7B e Qwen-3B, PC-GRPO migliora la qualità del ragionamento, la stabilità dell'addestramento e l'accuratezza sul compito finale, offrendo un percorso pratico verso un post-addestramento RL scalabile, verificabile e interpretabile per i VLM.
English
Recent reinforcement learning (RL) approaches like outcome-supervised GRPO have advanced chain-of-thought reasoning in Vision Language Models (VLMs), yet key issues linger: (i) reliance on costly and noisy hand-curated annotations or external verifiers; (ii) flat and sparse reward schemes in GRPO; and (iii) logical inconsistency between a chain's reasoning and its final answer. We present Puzzle Curriculum GRPO (PC-GRPO), a supervision-free recipe for RL with Verifiable Rewards (RLVR) that strengthens visual reasoning in VLMs without annotations or external verifiers. PC-GRPO replaces labels with three self-supervised puzzle environments: PatchFit, Rotation (with binary rewards) and Jigsaw (with graded partial credit mitigating reward sparsity). To counter flat rewards and vanishing group-relative advantages, we introduce a difficulty-aware curriculum that dynamically weights samples and peaks at medium difficulty. We further monitor Reasoning-Answer Consistency (RAC) during post-training: mirroring reports for vanilla GRPO in LLMs, RAC typically rises early then degrades; our curriculum delays this decline, and consistency-enforcing reward schemes further boost RAC. RAC correlates with downstream accuracy. Across diverse benchmarks and on Qwen-7B and Qwen-3B backbones, PC-GRPO improves reasoning quality, training stability, and end-task accuracy, offering a practical path to scalable, verifiable, and interpretable RL post-training for VLMs.