Dall’Imitazione alla Discriminazione: Verso un Meccanismo Generalizzato di Vantaggio Curricolare per il Miglioramento dei Compiti di Ragionamento Inter-Dominio
From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks
December 2, 2025
Autori: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang
cs.AI
Abstract
L'apprendimento per rinforzo è emerso come paradigma per il post-addestramento di grandi modelli linguistici, potenziandone le capacità di ragionamento. Tali approcci calcolano un valore di vantaggio per ogni campione, riflettendo prestazioni migliori o peggiori del previsto, fornendo così segnali sia positivi che negativi per l'addestramento. Tuttavia, la mescolanza indiscriminata dei due segnali nei metodi esistenti, specialmente dalle fasi iniziali, può portare a una guida ambigua e guadagni limitati. Per affrontare questo problema, proponiamo **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), un meccanismo di curriculum adattivo basato sui segnali di vantaggio. Il meccanismo proposto avvia l'apprendimento per imitazione con campioni di vantaggio esclusivamente positivi per stabilire basi solide, per poi introdurre segnali negativi per sviluppare capacità discriminative, migliorando così la generalizzazione in scenari complessi. Compatibile con vari metodi di ottimizzazione tra cui GRPO, PPO, RLOO e Reinforce++, il nostro metodo ottiene costantemente miglioramenti stabili e significativi in compiti di ragionamento matematico e si generalizza efficacemente anche a scenari di ragionamento multimodale su Interfacce Grafiche Utente (GUI), affermandosi come un framework di ottimizzazione versatile e robusto.
English
Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.