PRISM: Entmystifizierung von Retention und Interaktion im mittleren Trainingsabschnitt

Zusammenfassung

Wir stellen PRISM vor, eine umfassende empirische Studie zu Designentscheidungen während des Mid-Trainings großer Sprachmodelle. Durch kontrollierte Experimente mit sieben Basismodellen aus vier Modellfamilien (Granite, LLaMA, Mistral, Nemotron-H), zwei Architekturtypen (dichter Transformer und Attention-Mamba-Hybrid) und Parametergrößen von 3B bis 24B zeigen wir, dass ein Mid-Training mit etwa 27B hochwertigen Tokens konsistente Verbesserungen von +15 bis +40 Punkten in Mathematik, +5 bis +12 Punkten in Code und +6 bis +13 Punkten in wissenschaftlichen Benchmarks erzielt, während die allgemeine Leistung erhalten bleibt. Die vollständige PRISM-zu-RL-Pipeline verbessert den Makrodurchschnitt über sechs Reasoning-Benchmarks von unter 12 auf 29–42 (eine 3- bis 4-fache Verbesserung), während RL, das direkt auf die meisten Basismodelle angewendet wird, deutlich weniger effektiv bleibt, mit AIME-Werten nahe null. Die Datenkomposition ist während des Mid-Trainings entscheidend, nicht beim RL: Die Aufnahme wissenschaftlicher Daten während des Mid-Trainings ermöglicht GPQA-Diamond-Verbesserungen von +17 bis +28 Punkten während des RL, während Änderungen der RL-Zusammensetzung zu Unterschieden von weniger als 2 Punkten führen. Mechanistisch betrachtet strukturiert das Mid-Training über 90 % der Modellgewichte dicht um, während RL spärliche, vorab geladene Verfeinerungen an etwa 5 % der Parameter vornimmt. Eine Repräsentationsanalyse (CKA) bestätigt, dass RL die repräsentative Geometrie des Mid-Trainings (über 0,998 CKA) architekturübergreifend konserviert. Entscheidend ist, dass RL unabhängig vom Startpunkt identische Gewichtsänderungen anwendet, jedoch nur bei mid-trainierten Modellen erfolgreich ist, was konsistent damit ist, dass Mid-Training das Modell in eine Konfiguration bringt, von der aus RL die Leistung effektiv steigern kann. Unsere Ergebnisse demonstrieren, dass retentionsbewusstes Mid-Training hochwirksam für eine zuverlässige Verbesserung des logischen Denkens ist, und bieten praktische Leitlinien für den Entwurf robuster Mid-Training-Pipelines.

English

We present PRISM, a comprehensive empirical study of mid-training design choices for large language models. Through controlled experiments across seven base models spanning four families (Granite, LLaMA, Mistral, Nemotron-H), two architecture types (dense Transformer and attention-Mamba hybrid), and scales from 3B to 24B parameters, we show that mid-training on approximately 27B high-quality tokens yields consistent gains of +15 to +40 points on math, +5 to +12 points on code, and +6 to +13 points on science benchmarks while preserving general performance. The full PRISM to RL pipeline improves macro-average across six reasoning benchmarks from under 12 to 29-42 (a 3-4x improvement), whereas RL applied directly to most of the base models remains substantially less effective, with AIME scores near zero. Data composition matters most at mid-training, not RL: including science data during mid-training unlocks +17 to +28 point GPQA-Diamond gains during RL, while changing the RL mix produces less than 2 point differences. Mechanistically, mid-training densely restructures over 90% of model weights, while RL makes sparse, front-loaded refinements to approximately 5% of parameters. Representation analysis (CKA) confirms that RL consistently preserves mid-training's representational geometry (over 0.998 CKA) across architectures. Crucially, RL applies identical weight changes regardless of starting point, yet only succeeds on mid-trained models, consistent with mid-training placing the model in a configuration from which RL can effectively improve performance. Our results demonstrate that retention-aware mid-training is highly effective for reliable reasoning enhancement and provide practical guidance for designing robust mid-training pipelines.

PRISM: Entmystifizierung von Retention und Interaktion im mittleren Trainingsabschnitt

PRISM: Demystifying Retention and Interaction in Mid-Training

Zusammenfassung

Support