ChatPaper.aiChatPaper

Sull'Interazione tra Pre-Addestramento, Addestramento Intermedio e RL nei Modelli Linguistici di Ragionamento

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

December 8, 2025
Autori: Charlie Zhang, Graham Neubig, Xiang Yue
cs.AI

Abstract

Le recenti tecniche di apprendimento per rinforzo (RL) hanno prodotto notevoli miglioramenti nelle capacità di ragionamento dei modelli linguistici, ma rimane poco chiaro se l'addestramento postumo estenda veramente l'abilità di ragionamento di un modello oltre quanto acquisito durante il pre-addestramento. Una sfida centrale è la mancanza di controllo nelle pipeline di addestramento moderne: i corpora di pre-addestramento su larga scala sono opachi, l'addestramento intermedio è spesso poco esaminato e gli obiettivi di RL interagiscono in modi complessi con conoscenze pregresse sconosciute. Per risolvere questa ambiguità, sviluppiamo un framework sperimentale completamente controllato che isola i contributi causali del pre-addestramento, dell'addestramento intermedio e del post-addestramento basato su RL. Il nostro approccio utilizza compiti di ragionamento sintetici con operazioni atomiche esplicite, tracce di ragionamento passo-passo analizzabili e manipolazione sistematica delle distribuzioni di addestramento. Valutiamo i modelli lungo due assi: generalizzazione estrapolativa verso composizioni più complesse e generalizzazione contestuale attraverso contesti superficiali. Utilizzando questo framework, riconciliamo visioni contrastanti sull'efficacia dell'RL. Dimostriamo che: 1) L'RL produce veri guadagni di capacità (pass@128) solo quando il pre-addestramento lascia un margine sufficiente e quando i dati di RL mirano al "limite di competenza" del modello, ovvero compiti al confine che sono difficili ma non ancora fuori portata. 2) La generalizzazione contestuale richiede un'esposizione minima ma sufficiente durante il pre-addestramento, dopo la quale l'RL può trasferire in modo affidabile. 3) L'addestramento intermedio migliora significativamente le prestazioni a parità di capacità computazionale rispetto al solo RL, dimostrando il suo ruolo centrale ma poco esplorato nelle pipeline di addestramento. 4) Ricompense a livello di processo riducono il reward hacking e migliorano la fedeltà del ragionamento. Nel complesso, questi risultati chiariscono l'interazione tra pre-addestramento, addestramento intermedio e RL, offrendo una base per comprendere e migliorare le strategie di addestramento dei modelli linguistici per il ragionamento.
English
Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.
PDF202December 10, 2025