Reforço de Meio-Treinamento
Reinforcement Mid-Training
September 29, 2025
Autores: Yijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang
cs.AI
Resumo
O desenvolvimento de modelos de linguagem de última geração é comumente entendido como um processo de duas etapas envolvendo pré-treinamento e pós-treinamento. Nós destacamos a necessidade de uma etapa intermediária adicional chamada reforço de meio-treinamento, com potencial para ganhos significativos de desempenho. Neste artigo, definimos formalmente o problema e identificamos três desafios principais: (1) treinamento ineficiente devido a etapas de raciocínio excessivas, (2) desconsideração da distribuição desequilibrada de entropia de tokens e (3) subutilização das informações dos tokens. Para enfrentar esses desafios, propomos o RMT, uma estrutura para reforço de meio-treinamento eficiente, adaptativo e unificado, com diversos componentes inovadores. Em particular, primeiro introduzimos um mecanismo de orçamento dinâmico de tokens que restringe etapas desnecessárias de raciocínio e mitiga o excesso de pensamento do modelo. Em seguida, projetamos um método de amostragem adaptativa baseado em currículo que promove uma trajetória de aprendizado progressivo, de tokens fáceis para difíceis. Por fim, apresentamos uma estratégia de treinamento duplo que combina aprendizado por reforço com previsão do próximo token, garantindo aprendizado direcionado em tokens-chave e plena exploração de todas as informações dos tokens. Experimentos extensivos demonstram a superioridade do RMT sobre os métodos de última geração, alcançando uma melhoria de desempenho de até +64,91% com apenas 21% do comprimento de raciocínio na modelagem de linguagem. Também mostramos que checkpoints obtidos após o reforço de meio-treinamento podem beneficiar o subsequente pós-treinamento, resultando em uma melhoria de até +18,76% no domínio matemático.
English
The development of state-of-the-art large language models is commonly
understood as a two-stage process involving pre-training and post-training. We
point out the need for an additional intermediate stage called reinforcement
mid-training with potential for strong performance gains. In this paper, we
formally define the problem and identify three key challenges: (1) inefficient
training due to excessive reasoning steps, (2) disregard of the imbalanced
token entropy distribution, and (3) underutilization of token information. To
address these challenges, we propose RMT, a framework for efficient, adaptive,
and unified reinforcement mid-training with various innovative components. In
particular, we first introduce a dynamic token budget mechanism that constrains
unnecessary reasoning steps and mitigates model overthinking. Next, we design a
curriculum-based adaptive sampling method that fosters a progressive learning
trajectory from easy to hard tokens. Finally, we present a dual training
strategy that combines reinforcement learning with next-token prediction,
ensuring targeted learning on key tokens and full exploitation of all token
information. Extensive experiments demonstrate the superiority of RMT over
state-of-the-art methods, achieving up to +64.91% performance improvement with
only 21% of the reasoning length in language modeling. We also show that
checkpoints obtained after reinforcement mid-training can benefit the
subsequent post-training, yielding up to +18.76% improvement in the
mathematical domain.