ReMiT: Aprendizado por Reforço Guiado no Meio do Treinamento para Evolução Iterativa de LLMs

Resumo

Os pipelines padrão de treinamento para grandes modelos de linguagem (LLMs) são tipicamente unidirecionais, progredindo do pré-treinamento para o pós-treinamento. No entanto, o potencial de um processo bidirecional – onde insights do pós-treinamento retroativamente melhoram a base pré-treinada – permanece inexplorado. Nosso objetivo é estabelecer um *flywheel* autorreforçador: um ciclo no qual o modelo ajustado por aprendizagem por reforço (RL) fortalece o modelo base, que por sua vez melhora o desempenho subsequente no pós-treinamento, sem exigir um modelo professor ou de referência especialmente treinado. Para concretizar isso, analisamos a dinâmica do treinamento e identificamos a fase de meio do treinamento (*annealing*) como um ponto de virada crítico para as capacidades do modelo. Esta fase ocorre tipicamente no final do pré-treinamento, utilizando corpora de alta qualidade sob uma taxa de aprendizagem em rápida decadência. Com base nessa percepção, introduzimos o ReMiT (*Reinforcement Learning-Guided Mid-Training*). Especificamente, o ReMiT aproveita os *priors* de raciocínio de modelos ajustados por RL para reponderar dinamicamente os *tokens* durante a fase de meio do treinamento, priorizando aqueles fundamentais para o raciocínio. Empiricamente, o ReMiT alcança uma melhoria média de 3% em 10 *benchmarks* de pré-treinamento, abrangendo matemática, código e raciocínio geral, e mantém esses ganhos acima de 2% ao longo do *pipeline* de pós-treinamento. Esses resultados validam um ciclo de *feedback* iterativo, permitindo uma evolução contínua e autorreforçadora dos LLMs.

English

Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.

ReMiT: Aprendizado por Reforço Guiado no Meio do Treinamento para Evolução Iterativa de LLMs

ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

Resumo

Support