ChatPaper.aiChatPaper

Über das Zusammenspiel von Vor-Training, Mid-Training und Reinforcement Learning bei Reasoning-Sprachmodellen

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

December 8, 2025
papers.authors: Charlie Zhang, Graham Neubig, Xiang Yue
cs.AI

papers.abstract

Aktuelle Reinforcement-Learning (RL)-Methoden haben beeindruckende Verbesserungen der Reasoning-Fähigkeiten von Sprachmodellen erzielt, doch es bleibt unklar, ob Nachtraining die Reasoning-Fähigkeit eines Modells tatsächlich über das während des Vorrainings erworbene Maß hinaus erweitert. Eine zentrale Herausforderung ist die mangelnde Kontrolle in modernen Trainingspipelines: Vorrainingskorpora sind in großem Maßstab undurchsichtig, Mid-Training wird oft unzureichend untersucht, und RL-Ziele interagieren auf komplexe Weise mit unbekanntem Vorwissen. Um diese Unklarheit aufzulösen, entwickeln wir einen vollständig kontrollierten experimentellen Rahmen, der die kausalen Beiträge von Vorraining, Mid-Training und RL-basiertem Nachtraining isoliert. Unser Ansatz nutzt synthetische Reasoning-Aufgaben mit expliziten atomaren Operationen, parsbaren schrittweisen Reasoning-Traces und systematischer Manipulation der Trainingsverteilungen. Wir bewerten Modelle entlang zweier Achsen: extrapolative Generalisierung auf komplexere Kompositionen und kontextuelle Generalisierung über verschiedene Oberflächenkontexte hinweg. Mithithilfe dieses Rahmens klären wir widersprüchliche Ansichten zur Wirksamkeit von RL auf. Wir zeigen, dass: 1) RL nur dann echte Fähigkeitsgewinne (pass@128) erzeugt, wenn das Vorraining ausreichend Spielraum lässt und wenn die RL-Daten die Kompetenzgrenze des Modells anvisieren – also Aufgaben an der Schwelle, die schwierig, aber noch nicht unerreichbar sind. 2) Kontextuelle Generalisierung eine minimale, aber ausreichende Vorrainings-Exposition erfordert, wonach RL zuverlässig transferieren kann. 3) Mid-Training die Leistung bei festem Rechenaufwand signifikant stärker steigert als rein RL-basiertes Training, was seine zentrale, aber unterschätzte Rolle in Trainingspipelines belegt. 4) Prozessbezogene Belohnungen Reward Hacking reduzieren und die Reasoning-Treue verbessern. Zusammengenommen klären diese Ergebnisse das Zusammenspiel von Vorraining, Mid-Training und RL und bieten eine Grundlage zum Verständnis und zur Verbesserung von Reasoning-Trainingsstrategien für Sprachmodelle.
English
Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.
PDF202December 10, 2025