ChatPaper.aiChatPaper

Von der Imitation zur Unterscheidung: Auf dem Weg zu einem generalisierten Curriculum-Vorteilsmechanismus zur Verbesserung domänenübergreifender Reasoning-Aufgaben

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

December 2, 2025
papers.authors: Changpeng Yang, Jinyang Wu, Yuchen Liu, Shuai Zhang, Yang Li, Qiliang Liang, Hongzhen Wang, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang
cs.AI

papers.abstract

Reinforcement Learning hat sich als Paradigma für das Nachtraining großer Sprachmodelle etabliert, um deren Fähigkeiten im logischen Denken zu steigern. Solche Ansätze berechnen einen Advantage-Wert für jede Stichprobe, der eine bessere oder schlechtere Leistung als erwartet widerspiegelt und somit sowohl positive als auch negative Signale für das Training liefert. Die wahllose Vermischung dieser beiden Signale in bestehenden Methoden, insbesondere bereits in frühen Phasen, kann jedoch zu mehrdeutiger Steuerung und begrenzten Verbesserungen führen. Um dieses Problem zu adressieren, schlagen wir **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization) vor, einen adaptiven Curriculum-Mechanismus basierend auf Advantage-Signalen. Der vorgeschlagene Mechanismus startet Imitationslernen ausschließlich mit Proben mit positivem Advantage, um eine robuste Grundlage zu schaffen, und führt anschließend negative Signale ein, um differenzierende Fähigkeiten zu entwickeln, was die Generalisierung in komplexen Szenarien verbessert. Kompatibel mit verschiedenen Optimierungsmethoden wie GRPO, PPO, RLOO und Reinforce++, erzielt unser Ansatz durchgängig stabile und signifikante Verbesserungen in mathematischen Reasoning-Aufgaben und generalisiert effektiv auf multimodale Reasoning-Szenarien mit grafischen Benutzeroberflächen (GUI), wodurch er sich als vielseitiges und robustes Optimierungsframework etabliert.
English
Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.
PDF272December 9, 2025