Sobre la Dirección de las Actualizaciones RLVR para el Razonamiento en LLM: Identificación y Explotación

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) ha mejorado sustancialmente las capacidades de razonamiento de los modelos de lenguaje grandes. Si bien los análisis existentes identifican que los cambios inducidos por RLVR son dispersos, se centran principalmente en la magnitud de estas actualizaciones, pasando en gran medida por alto su dirección. En este trabajo, argumentamos que la dirección de las actualizaciones es una perspectiva más crítica para comprender los efectos de RLVR, la cual puede capturarse mediante la diferencia de probabilidad logarítmica a nivel de token con signo, Δlog p, entre los modelos base y final de RLVR. Mediante análisis estadístico e intervenciones de reemplazo de tokens, demostramos que Δlog p identifica más eficazmente las actualizaciones dispersas pero críticas para el razonamiento que las métricas basadas en magnitud (por ejemplo, divergencia o entropía). Basándonos en esta idea, proponemos dos aplicaciones prácticas: (1) un método de extrapolación en tiempo de prueba que amplifica la política a lo largo de la dirección aprendida Δlog p para mejorar la precisión del razonamiento sin entrenamiento adicional; (2) un método de reponderación en tiempo de entrenamiento que centra el aprendizaje en tokens de baja probabilidad (que corresponden a un Δlog p más alto), lo que mejora el rendimiento del razonamiento en distintos modelos y benchmarks. Nuestro trabajo establece la dirección del cambio como un principio clave para analizar y mejorar RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning capabilities of large language models. While existing analyses identify that RLVR-induced changes are sparse, they primarily focus on the magnitude of these updates, largely overlooking their direction. In this work, we argue that the direction of updates is a more critical lens for understanding RLVR's effects, which can be captured by the signed, token-level log probability difference Δlog p between the base and final RLVR models. Through statistical analysis and token-replacement interventions, we demonstrate that Δlog p more effectively identifies sparse, yet reasoning-critical updates than magnitude-based metrics (\eg divergence or entropy). Building on this insight, we propose two practical applications: (1) a test-time extrapolation method that amplifies the policy along the learned Δlog p direction to improve reasoning accuracy without further training; (2) a training-time reweighting method that focuses learning on low-probability (corresponding to higher Δlog p) tokens, which improves reasoning performance across models and benchmarks. Our work establishes the direction of change as a key principle for analyzing and improving RLVR.

Sobre la Dirección de las Actualizaciones RLVR para el Razonamiento en LLM: Identificación y Explotación

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Resumen

Support