Sparsam aber kritisch: Eine Token-Level-Analyse von Distributionsverschiebungen beim RLVR-Fine-Tuning von LLMs
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs
March 23, 2026
Autoren: Haoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou
cs.AI
Zusammenfassung
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat das Schlussfolgern in großen Sprachmodellen (LLMs) erheblich verbessert, doch die zugrundeliegenden Token-level-Mechanismen dieser Verbesserungen bleiben unklar. Wir präsentieren eine systematische empirische Studie zu den distributionellen Effekten von RLVR, die um drei Hauptanalysen strukturiert ist: (1) die Token-level-Charakterisierung von distributionellen Verschiebungen zwischen Basis- und RL-Modellen, (2) die Auswirkung von Token-level-Verteilungsverschiebungen auf die Sequenz-level-Schlussfolgerungsleistung durch Cross-Sampling-Interventionen und (3) die feingranularen Mechanismen dieser Verschiebungen auf Token-Ebene. Wir stellen fest, dass RL-Fine-Tuning hochgradig sparsame und gezielte Veränderungen induziert, wobei nur ein kleiner Teil der Token-Verteilungen eine bedeutungsvolle Divergenz zwischen der Basis- und der RL-Policy aufweist. Wir charakterisieren weiterhin die Struktur und Entwicklung dieser Verschiebungen durch Analysen der Token-Entropie, der positionsbezogenen Konzentration und der Umverteilung von Wahrscheinlichkeitsmasse. Um die funktionale Bedeutung dieser sparsamen Veränderungen zu bewerten, führen wir Cross-Sampling-Experimente durch, die gezielt Token-Auswahlen zwischen Basis- und RL-Modellen mit variierenden Interventionsbudgets austauschen. Wir zeigen, dass das Einfügen nur eines kleinen Bruchteils von RL-gesampelten Tokens in Basis-Generierungen die RL-Leistungsgewinne progressiv wiederherstellt, während das Injizieren einer ähnlich geringen Anzahl von Basis-Token-Auswahlen in ansonsten RL-generierte Sequenzen die Leistung auf das Basisniveau zurückfallen lässt. Dies isoliert eine kleine Menge von Token-level-Entscheidungen, die direkt für die Leistungsgewinne von RLVR verantwortlich sind. Schließlich untersuchen wir divergenzgewichtete Varianten des Advantage-Signals als diagnostische Intervention und stellen fest, dass diese Verbesserungen gegenüber den Baseline-Modellen erzielen können. Zusammengenommen werfen unsere Ergebnisse Licht auf die durch RLVR induzierten distributionellen Veränderungen und bieten eine feingranulare, Token-level-Perspektive zum Verständnis von RLVR-Fine-Tuning als einen gezielten Verfeinerungsprozess.
English
Reinforcement learning with verifiable rewards (RLVR) has significantly improved reasoning in large language models (LLMs), yet the token-level mechanisms underlying these improvements remain unclear. We present a systematic empirical study of RLVR's distributional effects organized around three main analyses: (1) token-level characterization of distributional shifts between base and RL models, (2) the impact of token-level distributional shifts on sequence-level reasoning performance through cross-sampling interventions, and (3) fine-grained mechanics of these shifts at the token level. We find that RL fine-tuning induces highly sparse and targeted changes, with only a small fraction of token distributions exhibiting meaningful divergence between the base and RL policies. We further characterize the structure and evolution of these shifts through analyses of token entropy, positional concentration, and reallocation of probability mass. To assess the functional importance of these sparse changes, we conduct cross-sampling experiments that selectively swap token choices between the base and RL models with varying intervention budgets. We show that inserting only a small fraction of RL-sampled tokens into base generations progressively recovers RL performance gains, while injecting a similarly small number of base token choices into otherwise RL-generated sequences collapses performance to base levels, isolating a small set of token-level decisions directly responsible for RLVR's performance gains. Finally, we explore divergence-weighted variants of the advantage signal as a diagnostic intervention, finding that they can yield improvements over baselines. Together, our results shed light on the distributional changes induced by RLVR and provide a fine-grained, token-level lens for understanding RLVR fine-tuning as a targeted refinement process.