Verstärkung während des Trainings
Reinforcement Mid-Training
September 29, 2025
papers.authors: Yijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang
cs.AI
papers.abstract
Die Entwicklung modernster großer Sprachmodelle wird allgemein als ein zweistufiger Prozess verstanden, der Vor- und Nachtraining umfasst. Wir weisen auf die Notwendigkeit einer zusätzlichen Zwischenstufe hin, die als Reinforcement Mid-Training bezeichnet wird und das Potenzial für erhebliche Leistungssteigerungen bietet. In diesem Papier definieren wir das Problem formal und identifizieren drei zentrale Herausforderungen: (1) ineffizientes Training aufgrund übermäßiger Denkschritte, (2) die Vernachlässigung der unausgewogenen Token-Entropieverteilung und (3) die unzureichende Nutzung von Token-Informationen. Um diese Herausforderungen zu bewältigen, schlagen wir RMT vor, ein Framework für effizientes, adaptives und einheitliches Reinforcement Mid-Training mit verschiedenen innovativen Komponenten. Insbesondere führen wir zunächst einen dynamischen Token-Budget-Mechanismus ein, der unnötige Denkschritte einschränkt und Modell-Überdenken reduziert. Anschließend entwerfen wir eine curriculum-basierte adaptive Sampling-Methode, die einen progressiven Lernpfad von einfachen zu schwierigen Tokens fördert. Schließlich präsentieren wir eine Dual-Training-Strategie, die Reinforcement Learning mit der Vorhersage des nächsten Tokens kombiniert, um gezieltes Lernen auf Schlüsseltokens und die vollständige Nutzung aller Token-Informationen zu gewährleisten. Umfangreiche Experimente demonstrieren die Überlegenheit von RMT gegenüber modernsten Methoden, mit einer Leistungssteigerung von bis zu +64,91 % bei nur 21 % der Denklänge im Sprachmodellierungskontext. Wir zeigen außerdem, dass Checkpoints, die nach dem Reinforcement Mid-Training erhalten werden, das nachfolgende Nachtraining verbessern können, was zu einer Steigerung von bis zu +18,76 % im mathematischen Bereich führt.
English
The development of state-of-the-art large language models is commonly
understood as a two-stage process involving pre-training and post-training. We
point out the need for an additional intermediate stage called reinforcement
mid-training with potential for strong performance gains. In this paper, we
formally define the problem and identify three key challenges: (1) inefficient
training due to excessive reasoning steps, (2) disregard of the imbalanced
token entropy distribution, and (3) underutilization of token information. To
address these challenges, we propose RMT, a framework for efficient, adaptive,
and unified reinforcement mid-training with various innovative components. In
particular, we first introduce a dynamic token budget mechanism that constrains
unnecessary reasoning steps and mitigates model overthinking. Next, we design a
curriculum-based adaptive sampling method that fosters a progressive learning
trajectory from easy to hard tokens. Finally, we present a dual training
strategy that combines reinforcement learning with next-token prediction,
ensuring targeted learning on key tokens and full exploitation of all token
information. Extensive experiments demonstrate the superiority of RMT over
state-of-the-art methods, achieving up to +64.91% performance improvement with
only 21% of the reasoning length in language modeling. We also show that
checkpoints obtained after reinforcement mid-training can benefit the
subsequent post-training, yielding up to +18.76% improvement in the
mathematical domain.