Über die Richtung von RLVR-Updates für das LLM-Reasoning: Identifikation und Nutzung

Zusammenfassung

Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat die Reasoning-Fähigkeiten großer Sprachmodelle erheblich verbessert. Während bestehende Analysen feststellen, dass RLVR-induzierte Veränderungen spärlich sind, konzentrieren sie sich primär auf die Größenordnung dieser Updates und übersehen weitgehend deren Richtung. In dieser Arbeit argumentieren wir, dass die Richtung der Updates eine entscheidendere Perspektive zum Verständnis der RLVR-Effekte darstellt, die durch die vorzeichenbehaftete, tokenweise Log-Wahrscheinlichkeitsdifferenz Δlog p zwischen dem Basis- und dem finalen RLVR-Modell erfasst werden kann. Durch statistische Analysen und Token-Ersetzungsinterventionen zeigen wir, dass Δlog p spärliche, aber reasoning-kritische Updates wirksamer identifiziert als auf der Größenordnung basierende Metriken (z.B. Divergenz oder Entropie). Aufbauend auf dieser Erkenntnis schlagen wir zwei praktische Anwendungen vor: (1) eine Methode zur Extrapolation zur Testzeit, die die Policy entlang der gelernten Δlog p-Richtung verstärkt, um die Reasoning-Genauigkeit ohne weiteres Training zu verbessern; (2) eine Neugewichtungsmethode zur Trainingszeit, die das Lernen auf Tokens mit niedriger Wahrscheinlichkeit (entsprechend höherem Δlog p) fokussiert, was die Reasoning-Leistung über Modelle und Benchmarks hinweg verbessert. Unsere Arbeit etabliert die Richtung der Veränderung als ein Schlüsselprinzip zur Analyse und Verbesserung von RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning capabilities of large language models. While existing analyses identify that RLVR-induced changes are sparse, they primarily focus on the magnitude of these updates, largely overlooking their direction. In this work, we argue that the direction of updates is a more critical lens for understanding RLVR's effects, which can be captured by the signed, token-level log probability difference Δlog p between the base and final RLVR models. Through statistical analysis and token-replacement interventions, we demonstrate that Δlog p more effectively identifies sparse, yet reasoning-critical updates than magnitude-based metrics (\eg divergence or entropy). Building on this insight, we propose two practical applications: (1) a test-time extrapolation method that amplifies the policy along the learned Δlog p direction to improve reasoning accuracy without further training; (2) a training-time reweighting method that focuses learning on low-probability (corresponding to higher Δlog p) tokens, which improves reasoning performance across models and benchmarks. Our work establishes the direction of change as a key principle for analyzing and improving RLVR.

Über die Richtung von RLVR-Updates für das LLM-Reasoning: Identifikation und Nutzung

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Zusammenfassung

Support