Lernen zu Argumentieren als Aktionsabstraktionen mit skalierbarem Mid-Training RL

papers.abstract

Große Sprachmodelle zeichnen sich durch Verstärkungslernen (Reinforcement Learning, RL) aus, aber die vollständige Ausschöpfung dieses Potenzials erfordert eine Zwischentrainingsphase. Eine effektive Zwischentrainingsphase sollte eine kompakte Menge nützlicher Aktionen identifizieren und eine schnelle Auswahl unter ihnen durch Online-RL ermöglichen. Wir formalisieren diese Intuition, indem wir das erste theoretische Ergebnis darüber präsentieren, wie das Zwischentraining das Post-Training beeinflusst: Es charakterisiert einen Aktionsunterraum, der sowohl den Wertapproximationsfehler durch Reduzierung als auch den RL-Fehler während der nachfolgenden Planung minimiert. Unsere Analyse zeigt zwei Schlüsselfaktoren für die Effektivität des Zwischentrainings: die Effizienz der Reduzierung, die das Prior der initialen RL-Politik prägt, und deren Einfluss auf die RL-Konvergenz, die bestimmt, inwieweit diese Politik durch Online-Interaktionen verbessert werden kann. Diese Ergebnisse legen nahe, dass das Zwischentraining am effektivsten ist, wenn der Entscheidungsraum kompakt und der effektive Horizont kurz ist, was die Bedeutung des Arbeitens im Raum der Aktionsabstraktionen anstelle von primitiven Aktionen unterstreicht. Aufbauend auf diesen Erkenntnissen schlagen wir Reasoning as Action Abstractions (RA3) vor, einen skalierbaren Zwischentrainingsalgorithmus. Konkret leiten wir eine sequenzielle variationsuntere Schranke ab und optimieren sie durch iteratives Entdecken zeitlich konsistenter latenter Strukturen mittels RL, gefolgt von einem Feinabgleich auf den gebootstrappten Daten. Experimente zu Codegenerierungsaufgaben demonstrieren die Effektivität unseres Ansatzes. Über mehrere Basismodelle hinweg verbessert RA3 die durchschnittliche Leistung auf HumanEval und MBPP um 8 bzw. 4 Punkte im Vergleich zum Basismodell und der Next-Token-Vorhersage-Baseline. Darüber hinaus erreicht RA3 eine schnellere Konvergenz und eine höhere asymptotische Leistung in RLVR auf HumanEval+, MBPP+, LiveCodeBench und Codeforces.

English

Large language models excel with reinforcement learning (RL), but fully unlocking this potential requires a mid-training stage. An effective mid-training phase should identify a compact set of useful actions and enable fast selection among them through online RL. We formalize this intuition by presenting the first theoretical result on how mid-training shapes post-training: it characterizes an action subspace that minimizes both the value approximation error from pruning and the RL error during subsequent planning. Our analysis reveals two key determinants of mid-training effectiveness: pruning efficiency, which shapes the prior of the initial RL policy, and its impact on RL convergence, which governs the extent to which that policy can be improved via online interactions. These results suggest that mid-training is most effective when the decision space is compact and the effective horizon is short, highlighting the importance of operating in the space of action abstractions rather than primitive actions. Building on these insights, we propose Reasoning as Action Abstractions (RA3), a scalable mid-training algorithm. Specifically, we derive a sequential variational lower bound and optimize it by iteratively discovering temporally-consistent latent structures via RL, followed by fine-tuning on the bootstrapped data. Experiments on code generation tasks demonstrate the effectiveness of our approach. Across multiple base models, RA3 improves the average performance on HumanEval and MBPP by 8 and 4 points over the base model and the next-token prediction baseline. Furthermore, RA3 achieves faster convergence and higher asymptotic performance in RLVR on HumanEval+, MBPP+, LiveCodeBench, and Codeforces.

Lernen zu Argumentieren als Aktionsabstraktionen mit skalierbarem Mid-Training RL

Learning to Reason as Action Abstractions with Scalable Mid-Training RL

papers.abstract

Support