パズルカリキュラムGRPOによる視覚中心推論
Puzzle Curriculum GRPO for Vision-Centric Reasoning
December 16, 2025
著者: Ahmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk
cs.AI
要旨
近年の強化学習(RL)手法、例えば結果監視型GRPOは、Vision Language Model(VLM)における連鎖思考推論を進展させてきたが、重要な課題が残されている:(i)高コストでノイズの多い手作業による注釈や外部検証器への依存;(ii)GRPOにおける平坦で疎な報酬スキーム;(iii)連鎖推論と最終回答間の論理的不整合。本論文では、注釈や外部検証器を必要とせずVLMの視覚推論を強化する、検証可能な報誉を用いたRL(RLVR)のための教師なし手法Puzzle Curriculum GRPO(PC-GRPO)を提案する。PC-GRPOはラベルを3つの自己教師ありパズル環境で置き換える:PatchFit、回転(二値報酬)、ジグソー(段階的部分報酬により報酬の疎性を緩和)。平坦な報酬と消失するグループ相対優位性に対処するため、サンプルを動的に重み付けし中程度の難易度でピークに達する難易度対応カリキュラムを導入する。さらに学習後も推論-回答整合性(RAC)を監視:LLMにおける標準GRPOの報告を反映し、RACは通常早期に上昇した後劣化するが、本カリキュラムはこの低下を遅らせ、整合性強化報酬スキームがRACをさらに向上させる。RACは下流タスクの精度と相関する。多様なベンチマーク及びQwen-7B/Qwen-3Bバックボーンにおいて、PC-GRPOは推論品質、学習安定性、最終タスク精度を改善し、VLMのためのスケーラブルで検証可能かつ解釈可能なRL学習後処理への実用的な道筋を提供する。
English
Recent reinforcement learning (RL) approaches like outcome-supervised GRPO have advanced chain-of-thought reasoning in Vision Language Models (VLMs), yet key issues linger: (i) reliance on costly and noisy hand-curated annotations or external verifiers; (ii) flat and sparse reward schemes in GRPO; and (iii) logical inconsistency between a chain's reasoning and its final answer. We present Puzzle Curriculum GRPO (PC-GRPO), a supervision-free recipe for RL with Verifiable Rewards (RLVR) that strengthens visual reasoning in VLMs without annotations or external verifiers. PC-GRPO replaces labels with three self-supervised puzzle environments: PatchFit, Rotation (with binary rewards) and Jigsaw (with graded partial credit mitigating reward sparsity). To counter flat rewards and vanishing group-relative advantages, we introduce a difficulty-aware curriculum that dynamically weights samples and peaks at medium difficulty. We further monitor Reasoning-Answer Consistency (RAC) during post-training: mirroring reports for vanilla GRPO in LLMs, RAC typically rises early then degrades; our curriculum delays this decline, and consistency-enforcing reward schemes further boost RAC. RAC correlates with downstream accuracy. Across diverse benchmarks and on Qwen-7B and Qwen-3B backbones, PC-GRPO improves reasoning quality, training stability, and end-task accuracy, offering a practical path to scalable, verifiable, and interpretable RL post-training for VLMs.