PRISM: Раскрытие механизмов удержания и взаимодействия в середине обучения
PRISM: Demystifying Retention and Interaction in Mid-Training
March 17, 2026
Авторы: Bharat Runwal, Ashish Agrawal, Anurag Roy, Rameswar Panda
cs.AI
Аннотация
Мы представляем PRISM — всестороннее эмпирическое исследование решений по проектированию промежуточного этапа обучения больших языковых моделей. В ходе контролируемых экспериментов с семью базовыми моделями, охватывающими четыре семейства (Granite, LLaMA, Mistral, Nemotron-H), два типа архитектур (плотный Transformer и гибрид attention-Mamba) и масштабы от 3 до 24 миллиардов параметров, мы показываем, что промежуточное обучение на приблизительно 27 миллиардах высококачественных токенов приводит к стабильному улучшению на +15…+40 пунктов по математике, +5…+12 пунктов по коду и +6…+13 пунктов по научным тестам при сохранении общей производительности. Полный конвейер PRISM до обучения с подкреплением (RL) улучшает макро-среднее по шести тестам на рассуждение с менее чем 12 до 29–42 (улучшение в 3–4 раза), тогда как RL, примененный напрямую к большинству базовых моделей, остается существенно менее эффективным, с показателями AIME близкими к нулю. Состав данных наиболее важен на этапе промежуточного обучения, а не RL: включение научных данных во время промежуточного обучения открывает прирост в +17…+28 пунктов по GPQA-Diamond во время RL, в то время как изменение состава данных RL дает различия менее 2 пунктов. Механистический анализ показывает, что промежуточное обучение плотно перестраивает более 90% весов модели, тогда как RL вносит разреженные, фронтально-нагруженные коррективы примерно в 5% параметров. Анализ представлений (CKA) подтверждает, что RL последовательно сохраняет геометрию представлений, достигнутую на промежуточном обучении (CKA > 0,998), across архитектур. Ключевой вывод: RL применяет идентичные изменения весов независимо от начальной точки, но достигает успеха только на моделях после промежуточного обучения, что согласуется с гипотезой, что промежуточное обучение переводит модель в конфигурацию, из которой RL может эффективно улучшать производительность. Наши результаты демонстрируют, что промежуточное обучение с учетом сохранения знаний высокоэффективно для надежного улучшения способностей к рассуждению, и предоставляют практические рекомендации по проектированию надежных конвейеров промежуточного обучения.
English
We present PRISM, a comprehensive empirical study of mid-training design choices for large language models. Through controlled experiments across seven base models spanning four families (Granite, LLaMA, Mistral, Nemotron-H), two architecture types (dense Transformer and attention-Mamba hybrid), and scales from 3B to 24B parameters, we show that mid-training on approximately 27B high-quality tokens yields consistent gains of +15 to +40 points on math, +5 to +12 points on code, and +6 to +13 points on science benchmarks while preserving general performance. The full PRISM to RL pipeline improves macro-average across six reasoning benchmarks from under 12 to 29-42 (a 3-4x improvement), whereas RL applied directly to most of the base models remains substantially less effective, with AIME scores near zero. Data composition matters most at mid-training, not RL: including science data during mid-training unlocks +17 to +28 point GPQA-Diamond gains during RL, while changing the RL mix produces less than 2 point differences. Mechanistically, mid-training densely restructures over 90% of model weights, while RL makes sparse, front-loaded refinements to approximately 5% of parameters. Representation analysis (CKA) confirms that RL consistently preserves mid-training's representational geometry (over 0.998 CKA) across architectures. Crucially, RL applies identical weight changes regardless of starting point, yet only succeeds on mid-trained models, consistent with mid-training placing the model in a configuration from which RL can effectively improve performance. Our results demonstrate that retention-aware mid-training is highly effective for reliable reasoning enhancement and provide practical guidance for designing robust mid-training pipelines.