ChatPaper.aiChatPaper

Over de Wisselwerking tussen Pre-training, Mid-training en RL bij Redeneertaalmodellen

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

December 8, 2025
Auteurs: Charlie Zhang, Graham Neubig, Xiang Yue
cs.AI

Samenvatting

Recente reinforcement learning (RL) technieken hebben indrukwekkende verbeteringen in het redeneervermogen van taalmodellen opgeleverd, maar het is onduidelijk of training-na-training het redeneervermogen van een model daadwerkelijk uitbreidt voorbij wat het tijdens de pre-training verwerft. Een centrale uitdaging is het gebrek aan controle in moderne trainingspijplijnen: grootschalige pre-training corpora zijn ondoorzichtig, mid-training wordt vaak onvoldoende onderzocht, en RL-doelstellingen interageren op complexe manieren met onbekende voorkennis. Om deze onduidelijkheid op te lossen, ontwikkelen we een volledig gecontroleerd experimenteel kader dat de causale bijdragen van pre-training, mid-training en RL-gebaseerde post-training isoleert. Onze aanpak gebruikt synthetische redeneertaken met expliciete atomische operaties, parseerbare stapsgewijze redeneersporen en systematische manipulatie van trainingsverdelingen. We evalueren modellen langs twee assen: extrapolerende generalisatie naar complexere composities en contextuele generalisatie over oppervlaktecontexten. Met dit kader brengen we concurrerende visies op de effectiviteit van RL met elkaar in overeenstemming. We tonen aan dat: 1) RL alleen ware vermogenswinst (pass@128) oplevert wanneer pre-training voldoende ruimte laat en wanneer RL-gegevens zich richten op de grens van bekwaamheid van het model, taken aan de grens die moeilijk zijn maar nog net binnen bereik. 2) Contextuele generalisatie minimale maar voldoende pre-training blootstelling vereist, waarna RL betrouwbaar kan transfereren. 3) Mid-training de prestaties bij vaste rekenkracht significant verbetert vergeleken met alleen RL, wat de centrale maar onderbelichte rol ervan in trainingspijplijnen aantoont. 4) Procesniveau beloningen reward hacking verminderen en de redeneertrouw verbeteren. Samen verduidelijken deze resultaten de wisselwerking tussen pre-training, mid-training en RL, en bieden ze een basis voor het begrijpen en verbeteren van trainingsstrategieën voor redenerende taalmodelen.
English
Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.
PDF202December 10, 2025