ChatPaper.aiChatPaper

Sur l'interaction entre le pré-entraînement, l'entraînement intermédiaire et l'apprentissage par renforcement dans les modèles de langage dédiés au raisonnement

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

December 8, 2025
papers.authors: Charlie Zhang, Graham Neubig, Xiang Yue
cs.AI

papers.abstract

Les techniques récentes d'apprentissage par renforcement (RL) ont permis d'améliorer notablement les capacités de raisonnement des modèles de langage, mais on ignore encore si l'après-entraînement étend véritablement les capacités de raisonnement au-delà de ce que le modèle acquiert durant le pré-entraînement. Un défi majeur réside dans le manque de contrôle des pipelines d'entraînement modernes : les corpus de pré-entraînement à grande échelle sont opaques, l'entraînement intermédiaire est souvent sous-étudié, et les objectifs de RL interagissent de façon complexe avec des connaissances préalables inconnues. Pour résoudre cette ambiguïté, nous développons un cadre expérimental entièrement contrôlé qui isole les contributions causales du pré-entraînement, de l'entraînement intermédiaire et de l'après-entraînement par RL. Notre approche utilise des tâches de raisonnement synthétiques avec des opérations atomiques explicites, des traces de raisonnement étape par étape analysables, et une manipulation systématique des distributions d'entraînement. Nous évaluons les modèles selon deux axes : la généralisation extrapolative à des compositions plus complexes et la généralisation contextuelle à travers différents contextes de surface. En utilisant ce cadre, nous réconcilions les points de vue contradictoires sur l'efficacité du RL. Nous montrons que : 1) Le RL produit des gains réels de capacité (pass@128) uniquement lorsque le pré-entraînement laisse une marge de progression suffisante et lorsque les données de RL ciblent le seuil de compétence du modèle, c'est-à-dire des tâches à la frontière, difficiles mais pas encore hors de portée. 2) La généralisation contextuelle nécessite une exposition minimale mais suffisante lors du pré-entraînement, après quoi le RL peut assurer un transfert fiable. 3) L'entraînement intermédiaire améliore significativement les performances à budget de calcul fixe par rapport au RL seul, démontrant son rôle central mais sous-exploré dans les pipelines d'entraînement. 4) Les récompenses au niveau du processus réduisent le détournement de récompense et améliorent la fidélité du raisonnement. Ensemble, ces résultats clarifient l'interaction entre pré-entraînement, entraînement intermédiaire et RL, offrant une base pour comprendre et améliorer les stratégies d'entraînement des modèles de langage pour le raisonnement.
English
Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.
PDF202December 10, 2025