Sparse mais Critique : Une Analyse au Niveau des Tokens des Décalages Distributionnels lors du Fine-Tuning RLVR des LLMs
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs
March 23, 2026
Auteurs: Haoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou
cs.AI
Résumé
Le renforcement de l'apprentissage avec récompenses vérifiables (RLVR) a considérablement amélioré le raisonnement des grands modèles de langage (LLM), mais les mécanismes au niveau des tokens sous-tendant ces améliorations restent obscurs. Nous présentons une étude empirique systématique des effets distributionnels du RLVR organisée autour de trois analyses principales : (1) la caractérisation au niveau des tokens des changements distributionnels entre les modèles de base et les modèles RL, (2) l'impact des changements distributionnels au niveau des tokens sur la performance du raisonnement au niveau séquentiel via des interventions par échantillonnage croisé, et (3) les mécanismes fins de ces changements au niveau des tokens. Nous constatons que le réglage fin par RL induit des modifications très éparses et ciblées, seule une petite fraction des distributions de tokens présentant une divergence significative entre les politiques de base et RL. Nous caractérisons en outre la structure et l'évolution de ces changements par des analyses de l'entropie des tokens, de la concentration positionnelle et de la réallocation de la masse de probabilité. Pour évaluer l'importance fonctionnelle de ces changements épars, nous menons des expériences d'échantillonnage croisé qui échangent sélectivement les choix de tokens entre les modèles de base et RL avec différents budgets d'intervention. Nous montrons qu'insérer seulement une petite fraction de tokens échantillonnés par RL dans les générations de base permet de récupérer progressivement les gains de performance du RL, tandis qu'injecter un nombre similaire de choix de tokens de base dans des séquences autrement générées par RL fait chuter la performance aux niveaux de base, isolant ainsi un petit ensemble de décisions au niveau des tokens directement responsables des gains de performance du RLVR. Enfin, nous explorons des variantes pondérées par la divergence du signal d'avantage comme intervention diagnostique, constatant qu'elles peuvent produire des améliorations par rapport aux lignes de base. Ensemble, nos résultats éclairent les changements distributionnels induits par le RLVR et fournissent une perspective fine, au niveau des tokens, pour comprendre le réglage fin du RLVR comme un processus de raffinement ciblé.
English
Reinforcement learning with verifiable rewards (RLVR) has significantly improved reasoning in large language models (LLMs), yet the token-level mechanisms underlying these improvements remain unclear. We present a systematic empirical study of RLVR's distributional effects organized around three main analyses: (1) token-level characterization of distributional shifts between base and RL models, (2) the impact of token-level distributional shifts on sequence-level reasoning performance through cross-sampling interventions, and (3) fine-grained mechanics of these shifts at the token level. We find that RL fine-tuning induces highly sparse and targeted changes, with only a small fraction of token distributions exhibiting meaningful divergence between the base and RL policies. We further characterize the structure and evolution of these shifts through analyses of token entropy, positional concentration, and reallocation of probability mass. To assess the functional importance of these sparse changes, we conduct cross-sampling experiments that selectively swap token choices between the base and RL models with varying intervention budgets. We show that inserting only a small fraction of RL-sampled tokens into base generations progressively recovers RL performance gains, while injecting a similarly small number of base token choices into otherwise RL-generated sequences collapses performance to base levels, isolating a small set of token-level decisions directly responsible for RLVR's performance gains. Finally, we explore divergence-weighted variants of the advantage signal as a diagnostic intervention, finding that they can yield improvements over baselines. Together, our results shed light on the distributional changes induced by RLVR and provide a fine-grained, token-level lens for understanding RLVR fine-tuning as a targeted refinement process.