TraPO: Ein semi-überwachtes Reinforcement-Learning-Framework zur Steigerung des logischen Denkens von LLMs

papers.abstract

Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich als effektiv erwiesen, um große Reasoning-Modelle (LRMs) zu trainieren, indem es antwortverifizierbare Signale zur Steuerung der Policy-Optimierung nutzt. Dieser Ansatz leidet jedoch unter hohen Annotationskosten. Um dieses Problem zu mildern, haben neuere Arbeiten unüberwachte RLVR-Methoden untersucht, die Belohnungen ausschließlich aus der internen Konsistenz des Modells ableiten, beispielsweise durch Entropie und Mehrheitsentscheid. Obwohl vielversprechend, neigen diese Methoden oft in späteren Trainingsphasen zu einem Model Collapse, was auf die Verstärkung falscher Reasoning-Muster ohne externe Überwachung zurückzuführen sein könnte. In dieser Arbeit untersuchen wir ein neuartiges semi-überwachtes RLVR-Paradigma, das eine kleine Menge gelabelter Daten nutzt, um das RLVR-Training auf ungelabelten Stichproben zu steuern. Unsere zentrale Erkenntnis ist, dass überwachte Belohnungen entscheidend sind, um konsistenzbasiertes Training auf ungelabelten Daten zu stabilisieren und sicherzustellen, dass nur Reasoning-Muster, die auf gelabelten Instanzen verifiziert wurden, in das RL-Training einfließen. Technisch schlagen wir einen effektiven Policy-Optimierungsalgorithmus namens TraPO vor, der zuverlässige ungelabelte Stichproben identifiziert, indem er die Ähnlichkeit ihrer Lernverläufe zu denen gelabelter Stichproben abgleicht. Aufbauend darauf erreicht TraPO eine bemerkenswerte Dateneffizienz und starke Generalisierungsfähigkeit auf sechs weit verbreiteten mathematischen Reasoning-Benchmarks (AIME24/25, AMC, MATH-500, Minerva und Olympiad) sowie drei Out-of-Distribution-Aufgaben (ARC-c, GPQA-diamond und MMLU-pro). Mit nur 1K gelabelten und 3K ungelabelten Stichproben erreicht TraPO eine durchschnittliche Genauigkeit von 42,6 % und übertrifft damit die beste unüberwachte Methode, die mit 45K ungelabelten Stichproben trainiert wurde (38,3 %). Bemerkenswerterweise übertrifft TraPO bei Verwendung von 4K gelabelten und 12K ungelabelten Stichproben auf allen Benchmarks sogar das vollständig überwachte Modell, das mit den vollen 45K gelabelten Stichproben trainiert wurde, und verwendet dabei nur 10 % der gelabelten Daten. Der Code ist unter https://github.com/ShenzhiYang2000/TRAPO verfügbar.

English

Reinforcement learning with verifiable rewards (RLVR) has proven effective in training large reasoning models (LRMs) by leveraging answer-verifiable signals to guide policy optimization, which, however, suffers from high annotation costs. To alleviate this problem, recent work has explored unsupervised RLVR methods that derive rewards solely from the model's internal consistency, such as through entropy and majority voting. While seemingly promising, these methods often suffer from model collapse in the later stages of training, which may arise from the reinforcement of incorrect reasoning patterns in the absence of external supervision. In this work, we investigate a novel semi-supervised RLVR paradigm that utilizes a small labeled set to guide RLVR training on unlabeled samples. Our key insight is that supervised rewards are essential for stabilizing consistency-based training on unlabeled samples, ensuring that only reasoning patterns verified on labeled instances are incorporated into RL training. Technically, we propose an effective policy optimization algorithm, TraPO, that identifies reliable unlabeled samples by matching their learning trajectory similarity to labeled ones. Building on this, TraPO achieves remarkable data efficiency and strong generalization on six widely used mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). With only 1K labeled and 3K unlabeled samples, TraPO reaches 42.6% average accuracy, surpassing the best unsupervised method trained on 45K unlabeled samples (38.3%). Notably, when using 4K labeled and 12K unlabeled samples, TraPO even outperforms the fully supervised model trained on the full 45K labeled samples on all benchmarks, while using only 10% of the labeled data. The code is available via https://github.com/ShenzhiYang2000/TRAPO.

TraPO: Ein semi-überwachtes Reinforcement-Learning-Framework zur Steigerung des logischen Denkens von LLMs

TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning

papers.abstract

Support