PRISM: Svelare la Ritenzione e l'Interazione durante l'Addestramento Intermedio

Abstract

Presentiamo PRISM, uno studio empirico completo sulle scelte progettuali a metà addestramento per i grandi modelli linguistici. Attraverso esperimenti controllati su sette modelli base che coprono quattro famiglie (Granite, LLaMA, Mistral, Nemotron-H), due tipi di architettura (Transformer denso e ibrido attention-Mamba) e scale da 3 a 24 miliardi di parametri, dimostriamo che un addestramento intermedio su circa 27 miliardi di token di alta qualità produce guadagni consistenti di +15 a +40 punti in matematica, +5 a +12 punti in codice e +6 a +13 punti su benchmark scientifici, preservando al contempo le prestazioni generali. La pipeline completa PRISM verso RL migliora la media macro su sei benchmark di ragionamento da meno di 12 a 29-42 (un miglioramento di 3-4 volte), mentre l'RL applicato direttamente alla maggior parte dei modelli base rimane sostanzialmente meno efficace, con punteggi AIME prossimi allo zero. La composizione dei dati è più cruciale durante l'addestramento intermedio, non durante l'RL: l'inclusione di dati scientifici durante l'addestramento intermedio sblocca guadagni di +17 a +28 punti su GPQA-Diamond durante l'RL, mentre modificare il mix di RL produce differenze inferiori a 2 punti. Meccanicamente, l'addestramento intermedio ristruttura densamente oltre il 90% dei pesi del modello, mentre l'RL apporta rifiniture sparse e anticipate a circa il 5% dei parametri. L'analisi delle rappresentazioni (CKA) conferma che l'RL preserva consistentemente la geometria rappresentativa dell'addestramento intermedio (CKA superiore a 0,998) attraverso le architetture. Crucialmente, l'RL applica modifiche identiche ai pesi indipendentemente dal punto di partenza, ma ha successo solo sui modelli con addestramento intermedio, coerentemente con l'ipotesi che tale addestramento posizioni il modello in una configurazione da cui l'RL può migliorare efficacemente le prestazioni. I nostri risultati dimostrano che un addestramento intermedio consapevole della ritenzione è altamente efficace per un potenziamento affidabile del ragionamento e forniscono indicazioni pratiche per progettare pipeline di addestramento intermedio robuste.

English

We present PRISM, a comprehensive empirical study of mid-training design choices for large language models. Through controlled experiments across seven base models spanning four families (Granite, LLaMA, Mistral, Nemotron-H), two architecture types (dense Transformer and attention-Mamba hybrid), and scales from 3B to 24B parameters, we show that mid-training on approximately 27B high-quality tokens yields consistent gains of +15 to +40 points on math, +5 to +12 points on code, and +6 to +13 points on science benchmarks while preserving general performance. The full PRISM to RL pipeline improves macro-average across six reasoning benchmarks from under 12 to 29-42 (a 3-4x improvement), whereas RL applied directly to most of the base models remains substantially less effective, with AIME scores near zero. Data composition matters most at mid-training, not RL: including science data during mid-training unlocks +17 to +28 point GPQA-Diamond gains during RL, while changing the RL mix produces less than 2 point differences. Mechanistically, mid-training densely restructures over 90% of model weights, while RL makes sparse, front-loaded refinements to approximately 5% of parameters. Representation analysis (CKA) confirms that RL consistently preserves mid-training's representational geometry (over 0.998 CKA) across architectures. Crucially, RL applies identical weight changes regardless of starting point, yet only succeeds on mid-trained models, consistent with mid-training placing the model in a configuration from which RL can effectively improve performance. Our results demonstrate that retention-aware mid-training is highly effective for reliable reasoning enhancement and provide practical guidance for designing robust mid-training pipelines.

PRISM: Svelare la Ritenzione e l'Interazione durante l'Addestramento Intermedio

PRISM: Demystifying Retention and Interaction in Mid-Training

Abstract

Support