Учебный план-головоломка GRPO для визуально-центрированного мышления
Puzzle Curriculum GRPO for Vision-Centric Reasoning
December 16, 2025
Авторы: Ahmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk
cs.AI
Аннотация
Современные подходы с обучением с подкреплением (ОП), такие как GRPO с контролем по результатам, продвинули логические рассуждения типа «цепочки мыслей» в визуально-языковых моделях (VLM), однако ключевые проблемы сохраняются: (i) зависимость от дорогостоящих и зашумленных ручных разметок или внешних верификаторов; (ii) плоские и разреженные схемы вознаграждений в GRPO; и (iii) логическая несогласованность между рассуждениями цепочки и её итоговым ответом. Мы представляем Puzzle Curriculum GRPO (PC-GRPO) — метод ОП с верифицируемыми вознаграждениями (RLVR), не требующий разметки и укрепляющий визуальные рассуждения в VLM без аннотаций или внешних верификаторов. PC-GRPO заменяет метки тремя самоконтролируемыми головоломками: PatchFit, Rotation (с бинарными вознаграждениями) и Jigsaw (с градуированными частичными вознаграждениями, смягчающими разреженность). Для борьбы с плоскими вознаграждениями и исчезающими групповыми относительными преимуществами мы вводим учитывающий сложность учебный план, который динамически взвешивает выборки и достигает пика на средней сложности. Мы дополнительно отслеживаем Согласованность Рассуждений и Ответа (RAC) после обучения: аналогично отчетам для стандартного GRPO в LLM, RAC обычно сначала растет, а затем ухудшается; наш учебный план задерживает этот спад, а схемы вознаграждения, обеспечивающие согласованность, дополнительно повышают RAC. RAC коррелирует с итоговой точностью. На различных бенчмарках и на базе моделей Qwen-7B и Qwen-3B PC-GRPO улучшает качество рассуждений, стабильность обучения и точность на конечных задачах, предлагая практический путь к масштабируемому, верифицируемому и интерпретируемому пост-обучению VLM с помощью ОП.
English
Recent reinforcement learning (RL) approaches like outcome-supervised GRPO have advanced chain-of-thought reasoning in Vision Language Models (VLMs), yet key issues linger: (i) reliance on costly and noisy hand-curated annotations or external verifiers; (ii) flat and sparse reward schemes in GRPO; and (iii) logical inconsistency between a chain's reasoning and its final answer. We present Puzzle Curriculum GRPO (PC-GRPO), a supervision-free recipe for RL with Verifiable Rewards (RLVR) that strengthens visual reasoning in VLMs without annotations or external verifiers. PC-GRPO replaces labels with three self-supervised puzzle environments: PatchFit, Rotation (with binary rewards) and Jigsaw (with graded partial credit mitigating reward sparsity). To counter flat rewards and vanishing group-relative advantages, we introduce a difficulty-aware curriculum that dynamically weights samples and peaks at medium difficulty. We further monitor Reasoning-Answer Consistency (RAC) during post-training: mirroring reports for vanilla GRPO in LLMs, RAC typically rises early then degrades; our curriculum delays this decline, and consistency-enforcing reward schemes further boost RAC. RAC correlates with downstream accuracy. Across diverse benchmarks and on Qwen-7B and Qwen-3B backbones, PC-GRPO improves reasoning quality, training stability, and end-task accuracy, offering a practical path to scalable, verifiable, and interpretable RL post-training for VLMs.