모방에서 변별로: 범도메인 추론 과제 향상을 위한 일반화된 커리큘럼 이점 메커니즘 탐구
From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks
December 2, 2025
저자: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang
cs.AI
초록
강화 학습은 대규모 언어 모델의 사후 훈련 패러다임으로 부상하며, 그 추론 능력을 향상시키고 있습니다. 이러한 접근법은 각 샘플에 대해 기대 성능 대비 우수하거나 낮은 성능을 반영하는 어드밴티지 값을 계산함으로써 훈련에 긍정적 및 부정적 신호를 동시에 제공합니다. 그러나 기존 방법에서는 특히 초기 단계부터 두 신호를 무분별하게 혼합함으로써 모호한 지도와 제한된 성능 향상을 초래할 수 있습니다. 이러한 문제를 해결하기 위해 우리는 어드밴티지 신호 기반의 적응형 커리큘럼 메커니즘인 **CAPO**(**C**urriculum **A**dvantage **P**olicy **O**ptimization)를 제안합니다. 제안된 메커니즘은 긍정적 어드밴티지 샘플만으로 모방 학습을 부트스트랩하여 견고한 기반을 마련한 후, 부정적 신호를 점진적으로 도입하여 판별 능력을 배양함으로써 복잡한 시나리오에서의 일반화 성능을 향상시킵니다. GRPO, PPO, RLOO, Reinforce++ 등 다양한 최적화 방법과 호환되는 본 방법은 수학적 추론 과제에서 안정적이고 상당한 성능 향상을 꾸준히 달성하며, 더 나아가 다중 모드 그래픽 사용자 인터페이스(GUI) 추론 시나리오에도 효과적으로 일반화되어 다재다능하고 강력한 최적화 프레임워크로 자리매김합니다.
English
Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.