Über die Richtung von RLVR-Updates für das LLM-Reasoning: Identifikation und Nutzung
On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation
March 23, 2026
Autoren: Kexin Huang, Haoming Meng, Junkang Wu, Jinda Lu, Chiyu Ma, Ziqian Chen, Xue Wang, Bolin Ding, Jiancan Wu, Xiang Wang, Xiangnan He, Guoyin Wang, Jingren Zhou
cs.AI
Zusammenfassung
Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat die Reasoning-Fähigkeiten großer Sprachmodelle erheblich verbessert. Während bestehende Analysen feststellen, dass RLVR-induzierte Veränderungen spärlich sind, konzentrieren sie sich primär auf die Größenordnung dieser Updates und übersehen weitgehend deren Richtung. In dieser Arbeit argumentieren wir, dass die Richtung der Updates eine entscheidendere Perspektive zum Verständnis der RLVR-Effekte darstellt, die durch die vorzeichenbehaftete, tokenweise Log-Wahrscheinlichkeitsdifferenz Δlog p zwischen dem Basis- und dem finalen RLVR-Modell erfasst werden kann. Durch statistische Analysen und Token-Ersetzungsinterventionen zeigen wir, dass Δlog p spärliche, aber reasoning-kritische Updates wirksamer identifiziert als auf der Größenordnung basierende Metriken (z.B. Divergenz oder Entropie). Aufbauend auf dieser Erkenntnis schlagen wir zwei praktische Anwendungen vor: (1) eine Methode zur Extrapolation zur Testzeit, die die Policy entlang der gelernten Δlog p-Richtung verstärkt, um die Reasoning-Genauigkeit ohne weiteres Training zu verbessern; (2) eine Neugewichtungsmethode zur Trainingszeit, die das Lernen auf Tokens mit niedriger Wahrscheinlichkeit (entsprechend höherem Δlog p) fokussiert, was die Reasoning-Leistung über Modelle und Benchmarks hinweg verbessert. Unsere Arbeit etabliert die Richtung der Veränderung als ein Schlüsselprinzip zur Analyse und Verbesserung von RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning capabilities of large language models. While existing analyses identify that RLVR-induced changes are sparse, they primarily focus on the magnitude of these updates, largely overlooking their direction. In this work, we argue that the direction of updates is a more critical lens for understanding RLVR's effects, which can be captured by the signed, token-level log probability difference Δlog p between the base and final RLVR models. Through statistical analysis and token-replacement interventions, we demonstrate that Δlog p more effectively identifies sparse, yet reasoning-critical updates than magnitude-based metrics (\eg divergence or entropy). Building on this insight, we propose two practical applications: (1) a test-time extrapolation method that amplifies the policy along the learned Δlog p direction to improve reasoning accuracy without further training; (2) a training-time reweighting method that focuses learning on low-probability (corresponding to higher Δlog p) tokens, which improves reasoning performance across models and benchmarks. Our work establishes the direction of change as a key principle for analyzing and improving RLVR.