Sur la direction des mises à jour RLVR pour le raisonnement des LLM : identification et exploitation

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a considérablement amélioré les capacités de raisonnement des grands modèles de langage. Si les analyses existantes identifient que les changements induits par le RLVR sont épars, elles se concentrent principalement sur l'amplitude de ces mises à jour, en négligeant largement leur direction. Dans ce travail, nous soutenons que la direction des mises à jour est un angle d'analyse plus critique pour comprendre les effets du RLVR, qui peut être capturée par la différence de log-probabilité signée au niveau des tokens, Δlog p, entre le modèle de base et le modèle final après RLVR. Par une analyse statistique et des interventions de remplacement de tokens, nous démontrons que Δlog p identifie plus efficacement les mises à jour éparses mais cruciales pour le raisonnement que les métriques basées sur l'amplitude (par exemple, la divergence ou l'entropie). En nous appuyant sur cette idée, nous proposons deux applications pratiques : (1) une méthode d'extrapolation lors des tests qui amplifie la politique selon la direction Δlog p apprise pour améliorer la précision du raisonnement sans entraînement supplémentaire ; (2) une méthode de repondération lors de l'entraînement qui concentre l'apprentissage sur les tokens de faible probabilité (correspondant à un Δlog p plus élevé), ce qui améliore les performances de raisonnement sur divers modèles et benchmarks. Notre travail établit la direction du changement comme un principe clé pour analyser et améliorer le RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning capabilities of large language models. While existing analyses identify that RLVR-induced changes are sparse, they primarily focus on the magnitude of these updates, largely overlooking their direction. In this work, we argue that the direction of updates is a more critical lens for understanding RLVR's effects, which can be captured by the signed, token-level log probability difference Δlog p between the base and final RLVR models. Through statistical analysis and token-replacement interventions, we demonstrate that Δlog p more effectively identifies sparse, yet reasoning-critical updates than magnitude-based metrics (\eg divergence or entropy). Building on this insight, we propose two practical applications: (1) a test-time extrapolation method that amplifies the policy along the learned Δlog p direction to improve reasoning accuracy without further training; (2) a training-time reweighting method that focuses learning on low-probability (corresponding to higher Δlog p) tokens, which improves reasoning performance across models and benchmarks. Our work establishes the direction of change as a key principle for analyzing and improving RLVR.

Sur la direction des mises à jour RLVR pour le raisonnement des LLM : identification et exploitation

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Résumé

Support