De la imitación a la discriminación: hacia un mecanismo de ventaja curricular generalizado que mejore las tareas de razonamiento cross-domain
From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks
December 2, 2025
Autores: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang
cs.AI
Resumen
El aprendizaje por refuerzo ha surgido como un paradigma para el posentrenamiento de modelos de lenguaje grandes, potenciando sus capacidades de razonamiento. Dichos enfoques calculan un valor de ventaja para cada muestra, que refleja un rendimiento mejor o peor del esperado, generando así señales tanto positivas como negativas para el entrenamiento. Sin embargo, la mezcla indiscriminada de ambas señales en los métodos existentes, especialmente desde las etapas iniciales, puede conducir a una guía ambigua y ganancias limitadas. Para abordar este problema, proponemos **CAPO** (**O**ptimización de **P**olítica de **V**entaja basada en **C**urrículo), un mecanismo curricular adaptativo basado en señales de ventaja. El mecanismo propuesto inicia el aprendizaje por imitación utilizando únicamente muestras con ventaja positiva para establecer bases sólidas, e introduce posteriormente las señales negativas para cultivar capacidades discriminativas, mejorando así la generalización en escenarios complejos. Compatible con diversos métodos de optimización como GRPO, PPO, RLOO y Reinforce++, nuestro método logra consistentemente mejoras estables y significativas en tareas de razonamiento matemático, y además generaliza eficazmente a escenarios de razonamiento multimodal en Interfaces Gráficas de Usuario (GUI), estableciéndose como un marco de optimización versátil y robusto.
English
Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.