ReMiT: Обучение с подкреплением для направленного промежуточного обучения в процессе итеративной эволюции больших языковых моделей

Аннотация

Стандартные конвейеры обучения больших языковых моделей (LLM) обычно являются однонаправленными, прогрессируя от предварительного обучения к пост-обучению. Однако потенциал двустороннего процесса — когда инсайты из пост-обучения ретроактивно улучшают предобученную основу — остаётся неисследованным. Мы стремимся создать самоподкрепляющийся маховик: цикл, в котором модель, донастроенная с помощью обучения с подкреплением (RL), усиливает базовую модель, что, в свою очередь, улучшает последующую производительность после обучения, не требуя специально обученного учителя или референсной модели. Для реализации этого мы анализируем динамику обучения и определяем фазу середины обучения (annealing) как критический переломный момент для способностей модели. Эта фаза обычно возникает в конце предварительного обучения, используя высококачественные корпусы при быстро снижающейся скорости обучения. Опираясь на это наблюдение, мы представляем ReMiT (Reinforcement Learning-Guided Mid-Training). Конкретно, ReMiT использует априорные знания о рассуждениях RL-настроенных моделей для динамического перевзвешивания токенов на фазе середины обучения, отдавая приоритет тем, которые имеют ключевое значение для логического вывода. Эмпирически ReMiT демонстрирует среднее улучшение на 3% по 10 бенчмаркам предварительного обучения, охватывающим математику, код и общие рассуждения, и сохраняет этот прирост более чем на 2% на протяжении всего конвейера пост-обучения. Эти результаты подтверждают наличие итеративной обратной связи, позволяющей осуществлять непрерывную и самоподкрепляющуюся эволюцию LLM.

English

Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.

ReMiT: Обучение с подкреплением для направленного промежуточного обучения в процессе итеративной эволюции больших языковых моделей

ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

Аннотация

Support