Scarso ma Cruciale: Un'Analisi a Livello di Token degli Spostamenti Distribuzionali nel Fine-Tuning RLVR per LLM
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs
March 23, 2026
Autori: Haoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou
cs.AI
Abstract
L'apprendimento per rinforzo con ricompense verificabili (RLVR) ha migliorato significativamente il ragionamento nei grandi modelli linguistici (LLM), sebbene i meccanismi a livello di token alla base di questi miglioramenti rimangano poco chiari. Presentiamo uno studio empirico sistematico degli effetti distribuzionali dell'RLVR organizzato attorno a tre analisi principali: (1) la caratterizzazione a livello di token degli spostamenti distribuzionali tra i modelli base e quelli RL, (2) l'impatto degli spostamenti distribuzionali a livello di token sulla performance di ragionamento a livello di sequenza attraverso interventi di campionamento incrociato, e (3) la meccanica granulare di questi spostamenti a livello di token. Scopriamo che la messa a punto con RL induce cambiamenti altamente sparsi e mirati, con solo una piccola frazione delle distribuzioni di token che mostra una divergenza significativa tra le politiche base e quelle RL. Caratterizziamo ulteriormente la struttura e l'evoluzione di questi spostamenti attraverso analisi dell'entropia dei token, della concentrazione posizionale e della riallocazione della massa di probabilità. Per valutare l'importanza funzionale di questi cambiamenti sparsi, conduciamo esperimenti di campionamento incrociato che scambiano selettivamente le scelte di token tra i modelli base e RL con budget di intervento variabili. Dimostriamo che l'inserimento di solo una piccola frazione di token campionati da RL nelle generazioni base recupera progressivamente i guadagni di performance dell'RL, mentre l'iniezione di un numero similmente piccolo di scelte di token base in sequenze altrimenti generate da RL fa collassare la performance ai livelli base, isolando un piccolo insieme di decisioni a livello di token direttamente responsabili dei guadagni di performance dell'RLVR. Infine, esploriamo varianti del segnale di vantaggio ponderate per la divergenza come intervento diagnostico, riscontrando che possono produrre miglioramenti rispetto ai baseline. Nel complesso, i nostri risultati fanno luce sui cambiamenti distribuzionali indotti dall'RLVR e forniscono una lente granulare, a livello di token, per comprendere la messa a punto con RLVR come un processo di raffinamento mirato.
English
Reinforcement learning with verifiable rewards (RLVR) has significantly improved reasoning in large language models (LLMs), yet the token-level mechanisms underlying these improvements remain unclear. We present a systematic empirical study of RLVR's distributional effects organized around three main analyses: (1) token-level characterization of distributional shifts between base and RL models, (2) the impact of token-level distributional shifts on sequence-level reasoning performance through cross-sampling interventions, and (3) fine-grained mechanics of these shifts at the token level. We find that RL fine-tuning induces highly sparse and targeted changes, with only a small fraction of token distributions exhibiting meaningful divergence between the base and RL policies. We further characterize the structure and evolution of these shifts through analyses of token entropy, positional concentration, and reallocation of probability mass. To assess the functional importance of these sparse changes, we conduct cross-sampling experiments that selectively swap token choices between the base and RL models with varying intervention budgets. We show that inserting only a small fraction of RL-sampled tokens into base generations progressively recovers RL performance gains, while injecting a similarly small number of base token choices into otherwise RL-generated sequences collapses performance to base levels, isolating a small set of token-level decisions directly responsible for RLVR's performance gains. Finally, we explore divergence-weighted variants of the advantage signal as a diagnostic intervention, finding that they can yield improvements over baselines. Together, our results shed light on the distributional changes induced by RLVR and provide a fine-grained, token-level lens for understanding RLVR fine-tuning as a targeted refinement process.