Разреженные, но критические: анализ распределительных сдвигов на уровне токенов при тонкой настройке LLM методом RLVR

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) значительно улучшило способность к рассуждениям у больших языковых моделей (LLM), однако токен-уровневые механизмы, лежащие в основе этих улучшений, остаются неясными. Мы представляем систематическое эмпирическое исследование распределительных эффектов RLVR, организованное вокруг трех основных анализов: (1) токен-уровневая характеристика распределительных сдвигов между базовой и RL-моделями, (2) влияние токен-уровневых распределительных сдвигов на производительность рассуждений на уровне последовательности с помощью кросс-сэмплинговых интервенций и (3) детальная механика этих сдвигов на токен-уровне. Мы обнаруживаем, что RL-дообучение вызывает высоко разреженные и целенаправленные изменения, при этом лишь небольшая доля распределений токенов демонстрирует значимое расхождение между базовой и RL-политиками. Мы дополнительно характеризуем структуру и эволюцию этих сдвигов с помощью анализа энтропии токенов, позиционной концентрации и перераспределения вероятностной массы. Для оценки функциональной важности этих разреженных изменений мы проводим кросс-сэмплинговые эксперименты, которые выборочно заменяют выбор токенов между базовой и RL-моделями с различными бюджетами вмешательства. Мы показываем, что вставка лишь небольшой доли токенов, сэмплированных RL-моделью, в генерации базовой модели постепенно восстанавливает gains производительности RL, в то время как внедрение аналогично малого числа выборов токенов базовой модели в иначе сгенерированные RL-последовательности снижает производительность до базового уровня, изолируя небольшой набор токен-уровневых решений, непосредственно ответственных за улучшения производительности RLVR. Наконец, мы исследуем взвешенные по расхождению варианты сигнала преимущества в качестве диагностической интервенции, обнаруживая, что они могут приводить к улучшениям по сравнению с базовыми уровнями. В совокупности наши результаты проливают свет на распределительные изменения, индуцированные RLVR, и предоставляют детальный, токен-уровневый взгляд на понимание RLVR-дообучения как целенаправленного процесса refinement.

English

Reinforcement learning with verifiable rewards (RLVR) has significantly improved reasoning in large language models (LLMs), yet the token-level mechanisms underlying these improvements remain unclear. We present a systematic empirical study of RLVR's distributional effects organized around three main analyses: (1) token-level characterization of distributional shifts between base and RL models, (2) the impact of token-level distributional shifts on sequence-level reasoning performance through cross-sampling interventions, and (3) fine-grained mechanics of these shifts at the token level. We find that RL fine-tuning induces highly sparse and targeted changes, with only a small fraction of token distributions exhibiting meaningful divergence between the base and RL policies. We further characterize the structure and evolution of these shifts through analyses of token entropy, positional concentration, and reallocation of probability mass. To assess the functional importance of these sparse changes, we conduct cross-sampling experiments that selectively swap token choices between the base and RL models with varying intervention budgets. We show that inserting only a small fraction of RL-sampled tokens into base generations progressively recovers RL performance gains, while injecting a similarly small number of base token choices into otherwise RL-generated sequences collapses performance to base levels, isolating a small set of token-level decisions directly responsible for RLVR's performance gains. Finally, we explore divergence-weighted variants of the advantage signal as a diagnostic intervention, finding that they can yield improvements over baselines. Together, our results shed light on the distributional changes induced by RLVR and provide a fine-grained, token-level lens for understanding RLVR fine-tuning as a targeted refinement process.

Разреженные, но критические: анализ распределительных сдвигов на уровне токенов при тонкой настройке LLM методом RLVR

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Аннотация

Support