ChatPaper.aiChatPaper

ReMiT: 強化学習誘導型中間トレーニングによる反復的LLM進化

ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

February 3, 2026
著者: Junjie Huang, Jiarui Qin, Di Yin, Weiwen Liu, Yong Yu, Xing Sun, Weinan Zhang
cs.AI

要旨

大規模言語モデル(LLM)の標準的な学習パイプラインは、通常、事前学習から事後学習へと一方向に進行する。しかし、事後学習から得られた知見が事前学習済み基盤モデルを遡及的に改善する双方向プロセスの可能性は、未だ探求されていない。我々は、強化学習(RL)で調整されたモデルが基盤モデルを強化し、それが次なる事後学習の性能向上につながる、特別に訓練された教師モデルや参照モデルを必要としない、自己強化型のフライホイール(好循環)の確立を目指す。これを実現するため、我々は学習ダイナミクスを分析し、モデル能力の臨界転換点として「中期学習(アニーリング)段階」を特定した。この段階は通常、急減衰する学習率の下で高品質なコーパスを用い、事前学習の終盤に発生する。この知見に基づき、我々はReMiT(強化学習誘導型中期学習)を提案する。具体的には、ReMiTはRL調整モデルが持つ推論に関する事前知識を利用し、中期学習段階においてトークンを動的に再重み付けし、推論に決定的に重要なトークンを優先する。実験では、ReMiTは数学、コード、一般推論にわたる10の事前学習ベンチマークで平均3%の改善を達成し、この改善効果(2%超)を事後学習パイプライン全体を通じて持続させた。これらの結果は、反復的なフィードバックループがLLMの持続的かつ自己強化的な進化を可能にすることを実証する。
English
Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.
PDF63March 16, 2026