PRISM: Retentie en Interactie Ontrafelen Tijdens Middenfase Training

Samenvatting

Wij presenteren PRISM, een uitgebreide empirische studie naar ontwerpkeuzes tijdens de middenfase van training voor grote taalmodellen. Via gecontroleerde experimenten met zeven basismodellen uit vier families (Granite, LLaMA, Mistral, Nemotron-H), twee architectuurtypen (dichte Transformer en attention-Mamba hybride) en schalen van 3B tot 24B parameters, tonen we aan dat training in de middenfase op ongeveer 27B hoogwaardige tokens consistente winsten oplevert van +15 tot +40 punten op wiskunde, +5 tot +12 punten op code en +6 tot +13 punten op wetenschappelijke benchmarks, terwijl de algemene prestaties behouden blijven. De volledige PRISM-naar-RL pijplijn verbetert het macro-gemiddelde over zes redeneerbenchmarks van minder dan 12 naar 29-42 (een 3-4x verbetering), terwijl RL direct toegepast op de meeste basismodellen aanzienlijk minder effectief blijft, met AIME-scores nabij nul. Datasamenstelling is het belangrijkst tijdens de middenfase, niet RL: het opnemen van wetenschappelijke data tijdens de middenfase ontgrendelt +17 tot +28 punten GPQA-Diamond winst tijdens RL, terwijl het aanpassen van de RL-mix minder dan 2 punten verschil oplevert. Mechanistisch gezien herstructureert training in de middenfase meer dan 90% van de modelgewichten dicht, terwijl RL slechts spaarzame, vooraf geladen verfijningen aanbrengt aan ongeveer 5% van de parameters. Representatieanalyse (CKA) bevestigt dat RL consequent de representatiegeometrie van de middenfase behoudt (meer dan 0,998 CKA) across architecturen. Cruciaal is dat RL identieke gewichtsveranderingen toepast ongeacht het startpunt, maar alleen slaagt op modellen die de middenfase hebben doorlopen, consistent met de hypothese dat middenfase-training het model in een configuratie plaatst van waaruit RL effectief prestaties kan verbeteren. Onze resultaten tonen aan dat retentiebewuste training in de middenfase zeer effectief is voor betrouwbare redeneerverbetering en bieden praktische richtlijnen voor het ontwerpen van robuuste middenfase-trainingspijplijnen.

English

We present PRISM, a comprehensive empirical study of mid-training design choices for large language models. Through controlled experiments across seven base models spanning four families (Granite, LLaMA, Mistral, Nemotron-H), two architecture types (dense Transformer and attention-Mamba hybrid), and scales from 3B to 24B parameters, we show that mid-training on approximately 27B high-quality tokens yields consistent gains of +15 to +40 points on math, +5 to +12 points on code, and +6 to +13 points on science benchmarks while preserving general performance. The full PRISM to RL pipeline improves macro-average across six reasoning benchmarks from under 12 to 29-42 (a 3-4x improvement), whereas RL applied directly to most of the base models remains substantially less effective, with AIME scores near zero. Data composition matters most at mid-training, not RL: including science data during mid-training unlocks +17 to +28 point GPQA-Diamond gains during RL, while changing the RL mix produces less than 2 point differences. Mechanistically, mid-training densely restructures over 90% of model weights, while RL makes sparse, front-loaded refinements to approximately 5% of parameters. Representation analysis (CKA) confirms that RL consistently preserves mid-training's representational geometry (over 0.998 CKA) across architectures. Crucially, RL applies identical weight changes regardless of starting point, yet only succeeds on mid-trained models, consistent with mid-training placing the model in a configuration from which RL can effectively improve performance. Our results demonstrate that retention-aware mid-training is highly effective for reliable reasoning enhancement and provide practical guidance for designing robust mid-training pipelines.

PRISM: Retentie en Interactie Ontrafelen Tijdens Middenfase Training

PRISM: Demystifying Retention and Interaction in Mid-Training

Samenvatting

Support