Escassos mas Críticos: Uma Análise ao Nível de Tokens das Mudanças Distribucionais no Ajuste Fino RLVR de LLMs

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) melhorou significativamente o raciocínio em grandes modelos de linguagem (LLMs), embora os mecanismos em nível de token subjacentes a essas melhorias permaneçam pouco claros. Apresentamos um estudo empírico sistemático dos efeitos distribucionais do RLVR organizado em torno de três análises principais: (1) caracterização em nível de token dos deslocamentos distribucionais entre os modelos base e RL, (2) o impacto dos deslocamentos distribucionais em nível de token no desempenho do raciocínio em nível sequencial por meio de intervenções de amostragem cruzada, e (3) a mecânica refinada desses deslocamentos em nível de token. Constatamos que o ajuste fino por RL induz mudanças altamente esparsas e direcionadas, com apenas uma pequena fração das distribuições de token exibindo divergência significativa entre as políticas base e RL. Caracterizamos ainda mais a estrutura e a evolução desses deslocamentos por meio de análises de entropia do token, concentração posicional e realocação da massa de probabilidade. Para avaliar a importância funcional dessas mudanças esparsas, conduzimos experimentos de amostragem cruzada que trocam seletivamente as escolhas de token entre os modelos base e RL com orçamentos de intervenção variados. Mostramos que a inserção de apenas uma pequena fração de tokens amostrados por RL nas gerações base recupera progressivamente os ganhos de desempenho do RL, enquanto a injeção de um número igualmente pequeno de escolhas de token base em sequências geradas por RL reduz o desempenho aos níveis base, isolando um pequeno conjunto de decisões em nível de token diretamente responsáveis pelos ganhos de desempenho do RLVR. Finalmente, exploramos variantes do sinal de vantagem ponderadas pela divergência como uma intervenção de diagnóstico, constatando que elas podem produzir melhorias em relação às linhas de base. Juntos, nossos resultados esclarecem as mudanças distribucionais induzidas pelo RLVR e fornecem uma lente refinada, em nível de token, para compreender o ajuste fino do RLVR como um processo de refinamento direcionado.

English

Reinforcement learning with verifiable rewards (RLVR) has significantly improved reasoning in large language models (LLMs), yet the token-level mechanisms underlying these improvements remain unclear. We present a systematic empirical study of RLVR's distributional effects organized around three main analyses: (1) token-level characterization of distributional shifts between base and RL models, (2) the impact of token-level distributional shifts on sequence-level reasoning performance through cross-sampling interventions, and (3) fine-grained mechanics of these shifts at the token level. We find that RL fine-tuning induces highly sparse and targeted changes, with only a small fraction of token distributions exhibiting meaningful divergence between the base and RL policies. We further characterize the structure and evolution of these shifts through analyses of token entropy, positional concentration, and reallocation of probability mass. To assess the functional importance of these sparse changes, we conduct cross-sampling experiments that selectively swap token choices between the base and RL models with varying intervention budgets. We show that inserting only a small fraction of RL-sampled tokens into base generations progressively recovers RL performance gains, while injecting a similarly small number of base token choices into otherwise RL-generated sequences collapses performance to base levels, isolating a small set of token-level decisions directly responsible for RLVR's performance gains. Finally, we explore divergence-weighted variants of the advantage signal as a diagnostic intervention, finding that they can yield improvements over baselines. Together, our results shed light on the distributional changes induced by RLVR and provide a fine-grained, token-level lens for understanding RLVR fine-tuning as a targeted refinement process.

Escassos mas Críticos: Uma Análise ao Nível de Tokens das Mudanças Distribucionais no Ajuste Fino RLVR de LLMs

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Resumo

Support