Усиление в середине обучения
Reinforcement Mid-Training
September 29, 2025
Авторы: Yijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang
cs.AI
Аннотация
Разработка современных крупных языковых моделей обычно понимается как двухэтапный процесс, включающий предварительное обучение и пост-обучение. Мы указываем на необходимость дополнительного промежуточного этапа, называемого усиленным срединным обучением, который обладает потенциалом для значительного повышения производительности. В данной работе мы формально определяем проблему и выделяем три ключевых вызова: (1) неэффективное обучение из-за избыточного количества шагов рассуждения, (2) игнорирование несбалансированного распределения энтропии токенов и (3) недостаточное использование информации токенов. Для решения этих проблем мы предлагаем RMT — фреймворк для эффективного, адаптивного и унифицированного усиленного срединного обучения, включающий различные инновационные компоненты. В частности, мы сначала вводим механизм динамического бюджета токенов, который ограничивает ненужные шаги рассуждения и смягчает проблему "переобдумывания" модели. Затем мы разрабатываем метод адаптивной выборки на основе учебного плана, который способствует прогрессивной траектории обучения от простых к сложным токенам. Наконец, мы представляем двойную стратегию обучения, сочетающую обучение с подкреплением и предсказание следующего токена, что обеспечивает целенаправленное обучение ключевым токенам и полное использование всей информации токенов. Многочисленные эксперименты демонстрируют превосходство RMT над современными методами, достигая улучшения производительности до +64,91% при использовании всего 21% длины рассуждения в языковом моделировании. Мы также показываем, что контрольные точки, полученные после усиленного срединного обучения, могут улучшить последующее пост-обучение, обеспечивая улучшение до +18,76% в математической области.
English
The development of state-of-the-art large language models is commonly
understood as a two-stage process involving pre-training and post-training. We
point out the need for an additional intermediate stage called reinforcement
mid-training with potential for strong performance gains. In this paper, we
formally define the problem and identify three key challenges: (1) inefficient
training due to excessive reasoning steps, (2) disregard of the imbalanced
token entropy distribution, and (3) underutilization of token information. To
address these challenges, we propose RMT, a framework for efficient, adaptive,
and unified reinforcement mid-training with various innovative components. In
particular, we first introduce a dynamic token budget mechanism that constrains
unnecessary reasoning steps and mitigates model overthinking. Next, we design a
curriculum-based adaptive sampling method that fosters a progressive learning
trajectory from easy to hard tokens. Finally, we present a dual training
strategy that combines reinforcement learning with next-token prediction,
ensuring targeted learning on key tokens and full exploitation of all token
information. Extensive experiments demonstrate the superiority of RMT over
state-of-the-art methods, achieving up to +64.91% performance improvement with
only 21% of the reasoning length in language modeling. We also show that
checkpoints obtained after reinforcement mid-training can benefit the
subsequent post-training, yielding up to +18.76% improvement in the
mathematical domain.