ChatPaper.aiChatPaper

模倣から識別へ:ドメイン横断的推論タスクを強化する一般化カリキュラム優位性メカニズムの提案

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

December 2, 2025
著者: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang
cs.AI

要旨

強化学習は、大規模言語モデルの学習後調整におけるパラダイムとして登場し、その推論能力を向上させている。このようなアプローチでは、各サンプルに対してアドバンテージ値を計算し、期待値よりも優れたまたは劣ったパフォーマンスを反映させることで、学習のための正負両方の信号を生成する。しかし、既存手法では特に初期段階からこれら二つの信号を無差別に混合するため、指導が曖昧になり、効果が限定的になる可能性がある。この問題に対処するため、我々はアドバンテージ信号に基づく適応的カリキュラム機構である**CAPO**(**C**urriculum **A**dvantage **P**olicy **O**ptimization)を提案する。提案手法は、正のアドバンテージサンプルのみを用いた模倣学習によって堅牢な基盤を構築し、その後負の信号を導入して識別能力を育成することで、複雑なシナリオにおける汎化性能を改善する。GRPO、PPO、RLOO、Reinforce++など多様な最適化手法と互換性を持つ本手法は、数学的推論タスクで安定した大幅な改善を一貫して達成し、さらにマルチモーダルなグラフィカルユーザーインターフェース(GUI)推論シナリオへも効果的に汎化し、汎用的で堅牢な最適化フレームワークとしての地位を確立している。
English
Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.
PDF272December 9, 2025