ChatPaper.aiChatPaper

Escasos pero Críticos: Un Análisis a Nivel de Token de los Cambios Distribucionales en el Ajuste Fino RLVR para Modelos de Lenguaje Grandes

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

March 23, 2026
Autores: Haoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou
cs.AI

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) ha mejorado significativamente el razonamiento en los modelos de lenguaje grandes (LLM), aunque los mecanismos a nivel de token subyacentes a estas mejoras siguen sin estar claros. Presentamos un estudio empírico sistemático de los efectos distribucionales del RLVR organizado en torno a tres análisis principales: (1) caracterización a nivel de token de los cambios distribucionales entre los modelos base y los modelos de RL, (2) el impacto de los cambios distribucionales a nivel de token en el rendimiento del razonamiento a nivel de secuencia mediante intervenciones de muestreo cruzado, y (3) la mecánica detallada de estos cambios a nivel de token. Encontramos que el ajuste fino con RL induce cambios altamente dispersos y dirigidos, donde solo una pequeña fracción de las distribuciones de tokens exhibe una divergencia significativa entre las políticas base y las de RL. Caracterizamos además la estructura y evolución de estos cambios mediante análisis de la entropía de los tokens, la concentración posicional y la reasignación de la masa de probabilidad. Para evaluar la importancia funcional de estos cambios dispersos, realizamos experimentos de muestreo cruzado que intercambian selectivamente elecciones de tokens entre los modelos base y los de RL con distintos presupuestos de intervención. Demostramos que insertar solo una pequeña fracción de tokens muestreados por RL en las generaciones base recupera progresivamente las ganancias de rendimiento de RL, mientras que inyectar un número similar de elecciones de tokens base en secuencias generadas por RL colapsa el rendimiento a los niveles base, aislando un pequeño conjunto de decisiones a nivel de token directamente responsables de las mejoras de rendimiento del RLVR. Finalmente, exploramos variantes de la señal de ventaja ponderadas por divergencia como una intervención de diagnóstico, encontrando que pueden producir mejoras sobre las líneas base. En conjunto, nuestros resultados arrojan luz sobre los cambios distribucionales inducidos por el RLVR y proporcionan una lente detallada a nivel de token para comprender el ajuste fino del RLVR como un proceso de refinamiento dirigido.
English
Reinforcement learning with verifiable rewards (RLVR) has significantly improved reasoning in large language models (LLMs), yet the token-level mechanisms underlying these improvements remain unclear. We present a systematic empirical study of RLVR's distributional effects organized around three main analyses: (1) token-level characterization of distributional shifts between base and RL models, (2) the impact of token-level distributional shifts on sequence-level reasoning performance through cross-sampling interventions, and (3) fine-grained mechanics of these shifts at the token level. We find that RL fine-tuning induces highly sparse and targeted changes, with only a small fraction of token distributions exhibiting meaningful divergence between the base and RL policies. We further characterize the structure and evolution of these shifts through analyses of token entropy, positional concentration, and reallocation of probability mass. To assess the functional importance of these sparse changes, we conduct cross-sampling experiments that selectively swap token choices between the base and RL models with varying intervention budgets. We show that inserting only a small fraction of RL-sampled tokens into base generations progressively recovers RL performance gains, while injecting a similarly small number of base token choices into otherwise RL-generated sequences collapses performance to base levels, isolating a small set of token-level decisions directly responsible for RLVR's performance gains. Finally, we explore divergence-weighted variants of the advantage signal as a diagnostic intervention, finding that they can yield improvements over baselines. Together, our results shed light on the distributional changes induced by RLVR and provide a fine-grained, token-level lens for understanding RLVR fine-tuning as a targeted refinement process.
PDF40March 26, 2026