Sobre a Direção das Atualizações de RLVR para o Raciocínio em LLMs: Identificação e Exploração

Resumo

A aprendizagem por reforço com recompensas verificáveis (RLVR) melhorou substancialmente as capacidades de raciocínio de modelos de linguagem de grande escala. Embora as análises existentes identifiquem que as alterações induzidas pela RLVR são esparsas, elas concentram-se principalmente na magnitude dessas atualizações, negligenciando em grande parte a sua direção. Neste trabalho, argumentamos que a direção das atualizações é uma lente mais crítica para compreender os efeitos da RLVR, a qual pode ser capturada pela diferença de probabilidade logarítmica assinada a nível de token, Δlog p, entre os modelos base e final da RLVR. Através de análise estatística e intervenções de substituição de tokens, demonstramos que o Δlog p identifica mais eficazmente atualizações esparsas, mas críticas para o raciocínio, do que métricas baseadas na magnitude (por exemplo, divergência ou entropia). Com base nesta perceção, propomos duas aplicações práticas: (1) um método de extrapolação em tempo de teste que amplifica a política ao longo da direção aprendida Δlog p para melhorar a precisão do raciocínio sem treino adicional; (2) um método de reponderação em tempo de treino que concentra a aprendizagem em tokens de baixa probabilidade (correspondentes a um Δlog p mais elevado), o que melhora o desempenho do raciocínio em vários modelos e benchmarks. O nosso trabalho estabelece a direção da mudança como um princípio fundamental para analisar e melhorar a RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning capabilities of large language models. While existing analyses identify that RLVR-induced changes are sparse, they primarily focus on the magnitude of these updates, largely overlooking their direction. In this work, we argue that the direction of updates is a more critical lens for understanding RLVR's effects, which can be captured by the signed, token-level log probability difference Δlog p between the base and final RLVR models. Through statistical analysis and token-replacement interventions, we demonstrate that Δlog p more effectively identifies sparse, yet reasoning-critical updates than magnitude-based metrics (\eg divergence or entropy). Building on this insight, we propose two practical applications: (1) a test-time extrapolation method that amplifies the policy along the learned Δlog p direction to improve reasoning accuracy without further training; (2) a training-time reweighting method that focuses learning on low-probability (corresponding to higher Δlog p) tokens, which improves reasoning performance across models and benchmarks. Our work establishes the direction of change as a key principle for analyzing and improving RLVR.

Sobre a Direção das Atualizações de RLVR para o Raciocínio em LLMs: Identificação e Exploração

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Resumo

Support