Verstärkung während des Trainings

papers.abstract

Die Entwicklung modernster großer Sprachmodelle wird allgemein als ein zweistufiger Prozess verstanden, der Vor- und Nachtraining umfasst. Wir weisen auf die Notwendigkeit einer zusätzlichen Zwischenstufe hin, die als Reinforcement Mid-Training bezeichnet wird und das Potenzial für erhebliche Leistungssteigerungen bietet. In diesem Papier definieren wir das Problem formal und identifizieren drei zentrale Herausforderungen: (1) ineffizientes Training aufgrund übermäßiger Denkschritte, (2) die Vernachlässigung der unausgewogenen Token-Entropieverteilung und (3) die unzureichende Nutzung von Token-Informationen. Um diese Herausforderungen zu bewältigen, schlagen wir RMT vor, ein Framework für effizientes, adaptives und einheitliches Reinforcement Mid-Training mit verschiedenen innovativen Komponenten. Insbesondere führen wir zunächst einen dynamischen Token-Budget-Mechanismus ein, der unnötige Denkschritte einschränkt und Modell-Überdenken reduziert. Anschließend entwerfen wir eine curriculum-basierte adaptive Sampling-Methode, die einen progressiven Lernpfad von einfachen zu schwierigen Tokens fördert. Schließlich präsentieren wir eine Dual-Training-Strategie, die Reinforcement Learning mit der Vorhersage des nächsten Tokens kombiniert, um gezieltes Lernen auf Schlüsseltokens und die vollständige Nutzung aller Token-Informationen zu gewährleisten. Umfangreiche Experimente demonstrieren die Überlegenheit von RMT gegenüber modernsten Methoden, mit einer Leistungssteigerung von bis zu +64,91 % bei nur 21 % der Denklänge im Sprachmodellierungskontext. Wir zeigen außerdem, dass Checkpoints, die nach dem Reinforcement Mid-Training erhalten werden, das nachfolgende Nachtraining verbessern können, was zu einer Steigerung von bis zu +18,76 % im mathematischen Bereich führt.

English

The development of state-of-the-art large language models is commonly understood as a two-stage process involving pre-training and post-training. We point out the need for an additional intermediate stage called reinforcement mid-training with potential for strong performance gains. In this paper, we formally define the problem and identify three key challenges: (1) inefficient training due to excessive reasoning steps, (2) disregard of the imbalanced token entropy distribution, and (3) underutilization of token information. To address these challenges, we propose RMT, a framework for efficient, adaptive, and unified reinforcement mid-training with various innovative components. In particular, we first introduce a dynamic token budget mechanism that constrains unnecessary reasoning steps and mitigates model overthinking. Next, we design a curriculum-based adaptive sampling method that fosters a progressive learning trajectory from easy to hard tokens. Finally, we present a dual training strategy that combines reinforcement learning with next-token prediction, ensuring targeted learning on key tokens and full exploitation of all token information. Extensive experiments demonstrate the superiority of RMT over state-of-the-art methods, achieving up to +64.91% performance improvement with only 21% of the reasoning length in language modeling. We also show that checkpoints obtained after reinforcement mid-training can benefit the subsequent post-training, yielding up to +18.76% improvement in the mathematical domain.