ChatPaper.aiChatPaper

De l'imitation à la discrimination : vers un mécanisme généralisé d'avantage curriculaire pour l'amélioration des tâches de raisonnement transdomaine

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

December 2, 2025
papers.authors: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang
cs.AI

papers.abstract

L'apprentissage par renforcement est apparu comme un paradigme pour l'après-entraînement des grands modèles de langage, renforçant leurs capacités de raisonnement. Ces approches calculent une valeur d'avantage pour chaque échantillon, reflétant une performance meilleure ou pire qu'attendue, fournissant ainsi des signaux positifs et négatifs pour l'entraînement. Cependant, le mélange indistinct des deux signaux dans les méthodes existantes, particulièrement dès les premières étapes, peut entraîner un guidage ambigu et des gains limités. Pour résoudre ce problème, nous proposons **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), un mécanisme de curriculum adaptatif basé sur les signaux d'avantage. Le mécanisme proposé amorce l'apprentissage par imitation avec des échantillons d'avantage uniquement positifs pour établir des bases robustes, puis introduit progressivement les signaux négatifs pour cultiver les capacités discriminatives, améliorant ainsi la généralisation dans des scénarios complexes. Compatible avec diverses méthodes d'optimisation incluant GRPO, PPO, RLOO et Reinforce++, notre méthode obtient constamment des améliorations stables et significatives dans les tâches de raisonnement mathématique, et se généralise efficacement à des scénarios de raisonnement multimodal sur des Interfaces Graphiques Utilisateur (IGU), s'établissant comme un cadre d'optimisation versatile et robuste.
English
Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.
PDF272December 9, 2025