Schaars maar Cruciaal: Een Token-Level Analyse van Distributionele Verschuivingen bij RLVR-Finetuning van LLM's
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs
March 23, 2026
Auteurs: Haoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou
cs.AI
Samenvatting
Versterkt leren met verifieerbare beloningen (RLVR) heeft het redeneervermogen van grote taalmodellen (LLM's) aanzienlijk verbeterd, maar de onderliggende token-level mechanismen van deze verbeteringen blijven onduidelijk. Wij presenteren een systematische empirische studie naar de distributionele effecten van RLVR, georganiseerd rond drie hoofdanalyses: (1) token-level karakterisering van distributionele verschuivingen tussen basis- en RL-modellen, (2) de impact van token-level distributionele verschuivingen op sequence-level redeneerprestaties via kruisbemonsteringsinterventies, en (3) fijnmazige mechanica van deze verschuivingen op tokenniveau. Wij constateren dat RL-finetuning zeer gedoseerde en gerichte veranderingen induceert, waarbij slechts een kleine fractie van de tokenverdelingen een betekenisvolle divergentie vertoont tussen het basis- en het RL-beleid. Wij karakteriseren verder de structuur en evolutie van deze verschuivingen door analyses van token-entropie, positionele concentratie en herallocatie van waarschijnlijkheidsmassa. Om de functionele belangrijkheid van deze gedoseerde veranderingen te beoordelen, voeren wij kruisbemonsteringsexperimenten uit waarbij tokenkeuzes selectief worden uitgewisseld tussen de basis- en RL-modellen met variërende interventiebudgetten. Wij tonen aan dat het invoegen van slechts een kleine fractie RL-bemonsterde tokens in basisgeneraties de RL-prestatiewinst geleidelijk herstelt, terwijl het injecteren van een even klein aantal basis-tokenkeuzes in verder door RL gegenereerde sequenties de prestaties doet instorten naar het basisniveau. Dit isoleert een kleine set token-level beslissingen die direct verantwoordelijk zijn voor de prestatieverbetering door RLVR. Ten slotte exploreren wij divergentie-gewogen varianten van het voordelensignaal als diagnostische interventie, en constateren dat deze verbeteringen kunnen opleveren ten opzichte van de basislijnen. Samen werpen onze resultaten licht op de door RLVR geïnduceerde distributionele veranderingen en bieden zij een fijnmazige, token-level lens om RLVR-finetuning te begrijpen als een gericht verfijningsproces.
English
Reinforcement learning with verifiable rewards (RLVR) has significantly improved reasoning in large language models (LLMs), yet the token-level mechanisms underlying these improvements remain unclear. We present a systematic empirical study of RLVR's distributional effects organized around three main analyses: (1) token-level characterization of distributional shifts between base and RL models, (2) the impact of token-level distributional shifts on sequence-level reasoning performance through cross-sampling interventions, and (3) fine-grained mechanics of these shifts at the token level. We find that RL fine-tuning induces highly sparse and targeted changes, with only a small fraction of token distributions exhibiting meaningful divergence between the base and RL policies. We further characterize the structure and evolution of these shifts through analyses of token entropy, positional concentration, and reallocation of probability mass. To assess the functional importance of these sparse changes, we conduct cross-sampling experiments that selectively swap token choices between the base and RL models with varying intervention budgets. We show that inserting only a small fraction of RL-sampled tokens into base generations progressively recovers RL performance gains, while injecting a similarly small number of base token choices into otherwise RL-generated sequences collapses performance to base levels, isolating a small set of token-level decisions directly responsible for RLVR's performance gains. Finally, we explore divergence-weighted variants of the advantage signal as a diagnostic intervention, finding that they can yield improvements over baselines. Together, our results shed light on the distributional changes induced by RLVR and provide a fine-grained, token-level lens for understanding RLVR fine-tuning as a targeted refinement process.