ChatPaper.aiChatPaper

Van imitatie naar onderscheiding: Op weg naar een gegeneraliseerd curriculumvoordeelmechanisme voor het verbeteren van cross-domein redeneertaken

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

December 2, 2025
Auteurs: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang
cs.AI

Samenvatting

Versterkend leren is naar voren gekomen als een paradigma voor het na-trainen van grote taalmodellen, waardoor hun redeneervermogen wordt verbeterd. Dergelijke benaderingen berekenen een 'advantage'-waarde voor elk voorbeeld, die een betere of slechtere prestatie weergeeft dan verwacht, waardoor zowel positieve als negatieve signalen voor de training worden gegenereerd. Echter, het onoordeelkundig mengen van deze twee signalen in bestaande methoden, vooral in de vroege fasen, kan leiden tot ambigue sturing en beperkte winst. Om dit probleem aan te pakken, stellen wij **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization) voor, een adaptief curriculummechanisme gebaseerd op advantage-signalen. Het voorgestelde mechanisme start imitatieleren op met uitsluitend positieve advantage-voorbeelden om een robuuste basis te leggen, en introduceert vervolgens negatieve signalen om onderscheidend vermogen te kweken, waardoor de generalisatie over complexe scenario's verbetert. Compatibel met diverse optimalisatiemethoden zoals GRPO, PPO, RLOO en Reinforce++, behaalt onze methode consistente, stabiele en significante verbeteringen in wiskundige redeneertaken, en generaliseert ze effectief naar multimodale Graphical User Interface (GUI) redeneerscenario's, waarmee ze zich vestigt als een veelzijdig en robuust optimalisatiekader.
English
Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.
PDF272December 9, 2025