ChatPaper.aiChatPaper

О взаимодействии предварительного обучения, промежуточного обучения и обучения с подкреплением в языковых моделях рассуждений

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

December 8, 2025
Авторы: Charlie Zhang, Graham Neubig, Xiang Yue
cs.AI

Аннотация

Современные методы обучения с подкреплением (RL) демонстрируют впечатляющее улучшение способностей к рассуждению у языковых моделей, однако остается неясным, действительно ли дообучение расширяет их решающие возможности за пределы тех, что были усвоены на этапе предварительного обучения. Ключевая проблема заключается в отсутствии контроля в современных обучающих конвейерах: корпуса для масштабного предварительного обучения непрозрачны, процесс промежуточного обучения часто недостаточно изучен, а цели RL сложным образом взаимодействуют с априорными знаниями модели. Чтобы разрешить эту неопределенность, мы разработали полностью контролируемую экспериментальную систему, которая изолирует причинно-следственные вклады предварительного обучения, промежуточного обучения и RL-дообучения. Наш подход использует синтетические задачи на рассуждение с явными атомарными операциями, парсируемыми пошаговыми траекториями рассуждений и системным манипулированием распределениями данных для обучения. Мы оцениваем модели по двум осям: экстраполяционной обобщающей способности к более сложным композициям и контекстуальной обобщающей способности across различным поверхностным контекстам. Используя эту систему, мы примиряем противоречивые взгляды на эффективность RL. Мы показываем, что: 1) RL приводит к реальному росту способностей (pass@128) только тогда, когда предварительное обучение оставляет достаточный запас для улучшения и когда данные для RL нацелены на "грань компетенции" модели — задачи на границе возможностей, которые сложны, но еще не недостижимы. 2) Контекстуальное обобщение требует минимального, но достаточного воздействия на этапе предварительного обучения, после чего RL может надежно его переносить. 3) Промежуточное обучение при фиксированных вычислительных ресурсах значительно повышает производительность по сравнению с использованием только RL, что демонстрирует его центральную, но недостаточно изученную роль в обучающих конвейерах. 4) Вознаграждения на уровне процесса снижают "взлом" функции вознаграждения и повышают достоверность рассуждений. В совокупности эти результаты проясняют взаимодействие между предварительным обучением, промежуточным обучением и RL, закладывая основу для понимания и улучшения стратегий обучения языковых моделей рассуждениям.
English
Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.
PDF202December 10, 2025