PRISM: Desmitificando la Retención y la Interacción en la Fase Intermedia del Entrenamiento

Resumen

Presentamos PRISM, un estudio empírico integral sobre las decisiones de diseño durante el entrenamiento intermedio para modelos de lenguaje a gran escala. Mediante experimentos controlados con siete modelos base que abarcan cuatro familias (Granite, LLaMA, Mistral, Nemotron-H), dos tipos de arquitectura (Transformer denso e híbrido atención-Mamba) y escalas de 3B a 24B de parámetros, demostramos que el entrenamiento intermedio con aproximadamente 27B de tokens de alta calidad produce ganancias consistentes de +15 a +40 puntos en matemáticas, +5 a +12 puntos en código y +6 a +13 puntos en benchmarks de ciencias, preservando el rendimiento general. La canalización completa PRISM a RL mejora el promedio macro en seis benchmarks de razonamiento de menos de 12 a 29-42 (una mejora de 3-4x), mientras que el RL aplicado directamente a la mayoría de los modelos base sigue siendo sustancialmente menos efectivo, con puntuaciones AIME cercanas a cero. La composición de los datos es más importante durante el entrenamiento intermedio, no en el RL: incluir datos científicos durante el entrenamiento intermedio desbloquea ganancias de +17 a +28 puntos en GPQA-Diamond durante el RL, mientras que cambiar la mezcla de RL produce diferencias menores a 2 puntos. Mecanísticamente, el entrenamiento intermedio reestructura densamente más del 90% de los pesos del modelo, mientras que el RL realiza refinamientos escasos y frontales a aproximadamente el 5% de los parámetros. El análisis de representaciones (CKA) confirma que el RL preserva consistentemente la geometría representacional del entrenamiento intermedio (CKA superior a 0.998) en todas las arquitecturas. Crucialmente, el RL aplica cambios de peso idénticos independientemente del punto de partida, pero solo tiene éxito en modelos con entrenamiento intermedio, lo que es consistente con la idea de que dicho entrenamiento coloca al modelo en una configuración desde la cual el RL puede mejorar efectivamente el rendimiento. Nuestros resultados demuestran que el entrenamiento intermedio consciente de la retención es altamente efectivo para la mejora confiable del razonamiento y proporcionan una guía práctica para diseñar canalizaciones robustas de entrenamiento intermedio.

English

We present PRISM, a comprehensive empirical study of mid-training design choices for large language models. Through controlled experiments across seven base models spanning four families (Granite, LLaMA, Mistral, Nemotron-H), two architecture types (dense Transformer and attention-Mamba hybrid), and scales from 3B to 24B parameters, we show that mid-training on approximately 27B high-quality tokens yields consistent gains of +15 to +40 points on math, +5 to +12 points on code, and +6 to +13 points on science benchmarks while preserving general performance. The full PRISM to RL pipeline improves macro-average across six reasoning benchmarks from under 12 to 29-42 (a 3-4x improvement), whereas RL applied directly to most of the base models remains substantially less effective, with AIME scores near zero. Data composition matters most at mid-training, not RL: including science data during mid-training unlocks +17 to +28 point GPQA-Diamond gains during RL, while changing the RL mix produces less than 2 point differences. Mechanistically, mid-training densely restructures over 90% of model weights, while RL makes sparse, front-loaded refinements to approximately 5% of parameters. Representation analysis (CKA) confirms that RL consistently preserves mid-training's representational geometry (over 0.998 CKA) across architectures. Crucially, RL applies identical weight changes regardless of starting point, yet only succeeds on mid-trained models, consistent with mid-training placing the model in a configuration from which RL can effectively improve performance. Our results demonstrate that retention-aware mid-training is highly effective for reliable reasoning enhancement and provide practical guidance for designing robust mid-training pipelines.

PRISM: Desmitificando la Retención y la Interacción en la Fase Intermedia del Entrenamiento

PRISM: Demystifying Retention and Interaction in Mid-Training

Resumen

Support