시각 중심 추론을 위한 퍼즐 커리큘럼 GRPO
Puzzle Curriculum GRPO for Vision-Centric Reasoning
December 16, 2025
저자: Ahmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk
cs.AI
초록
최근 결과 지도 GRPO와 같은 강화학습(RL) 접근법이 비전 언어 모델(VLM)의 사고 연쇄 추론을 발전시켰으나, 다음과 같은 핵심 문제점이 남아있다: (i) 비용이 많이 들고 노이즈가 있는 수작업 주석 또는 외부 검증기에 대한 의존성; (ii) GRPO의 평편하고 희소한 보상 체계; (iii) 연쇄의 추론과 최종 답변 간의 논리적 불일치. 본 논문에서는 주석이나 외부 검증기 없이 VLM의 시각적 추론 능력을 강화하는 검증 가능한 보상을 통한 강화학습(RLVR)을 위한 자가 지도 방식인 Puzzle Curriculum GRPO(PC-GRPO)를 제안한다. PC-GRPO는 레이블을 세 가지 자가 지도 퍼즐 환경으로 대체한다: PatchFit, 회전(Rotation, 이진 보상) 및 직소(Jigsaw, 등급화된 부분 점수로 보상 희소성 완화). 평편한 보상과 사라지는 그룹 상대적 이점을 해결하기 위해, 샘플을 동적으로 가중치 부여하고 중간 난이도에서 정점을 이루는 난이도 인식 커리큘럼을 도입한다. 추가로 사후 학습 중 추론-답변 일관성(RAC)을 모니터링한다: LLM의 일반 GRPO에 대한 보고서를 반영하면, RAC는 일반적으로 초기에 상승하다가 저하된다; 우리의 커리큘럼은 이러한 저하를 지연시키며, 일관성 강화 보상 체계는 RAC를 추가로 향상시킨다. RAC는 하류 작업 정확도와 상관관계가 있다. 다양한 벤치마크와 Qwen-7B 및 Qwen-3B 백본에서 PC-GRPO는 추론 품질, 학습 안정성 및 최종 작업 정확도를 향상시켜 VLM을 위한 확장 가능하고 검증 가능하며 해석 가능한 RL 사후 학습의 실용적인 경로를 제시한다.
English
Recent reinforcement learning (RL) approaches like outcome-supervised GRPO have advanced chain-of-thought reasoning in Vision Language Models (VLMs), yet key issues linger: (i) reliance on costly and noisy hand-curated annotations or external verifiers; (ii) flat and sparse reward schemes in GRPO; and (iii) logical inconsistency between a chain's reasoning and its final answer. We present Puzzle Curriculum GRPO (PC-GRPO), a supervision-free recipe for RL with Verifiable Rewards (RLVR) that strengthens visual reasoning in VLMs without annotations or external verifiers. PC-GRPO replaces labels with three self-supervised puzzle environments: PatchFit, Rotation (with binary rewards) and Jigsaw (with graded partial credit mitigating reward sparsity). To counter flat rewards and vanishing group-relative advantages, we introduce a difficulty-aware curriculum that dynamically weights samples and peaks at medium difficulty. We further monitor Reasoning-Answer Consistency (RAC) during post-training: mirroring reports for vanilla GRPO in LLMs, RAC typically rises early then degrades; our curriculum delays this decline, and consistency-enforcing reward schemes further boost RAC. RAC correlates with downstream accuracy. Across diverse benchmarks and on Qwen-7B and Qwen-3B backbones, PC-GRPO improves reasoning quality, training stability, and end-task accuracy, offering a practical path to scalable, verifiable, and interpretable RL post-training for VLMs.