Man braucht nur minimales RLVR-Training: Extrapolieren von LLMs mittels Rang-1-Trajektorien

Zusammenfassung

Das Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) hat sich zu einem dominanten Paradigma zur Verbesserung der Argumentationsfähigkeiten großer Sprachmodelle (LLMs) entwickelt, doch die zugrundeliegende Geometrie der resultierenden Parameterverläufe bleibt bislang wenig erforscht. In dieser Arbeit zeigen wir, dass RLVR-Gewichtsverläufe extrem niedrigrangig und hochgradig vorhersagbar sind. Insbesondere stellen wir fest, dass der Großteil der nachgelagerten Leistungssteigerungen durch eine Rang-1-Näherung der Parameteränderungen erfasst wird, wobei die Größe dieser Projektion nahezu linear mit den Trainingsschritten anwächst. Motiviert durch diese Erkenntnis schlagen wir eine einfache und recheneffiziente Methode namens RELEX (REinforcement Learning EXtrapolation) vor, die den Rang-1-Unterraum aus einem kurzen Beobachtungsfenster schätzt und zukünftige Checkpoints mittels linearer Regression extrapoliert – ohne dass ein trainiertes Modell erforderlich ist. Bei drei Modellen (Qwen2.5-Math-1.5B, Qwen3-4B-Base und Qwen3-8B-Base) erzeugt RELEX Checkpoints, die die RLVR-Leistung sowohl auf bereichsinternen als auch auf bereichsfremden Benchmarks erreichen oder übertreffen, wobei lediglich 15 % der Schritte eines vollständigen RLVR-Trainings benötigt werden. Bemerkenswerterweise kann RELEX ohne zusätzliche Trainingskosten weit über das Beobachtungsfenster hinaus extrapolieren und Checkpoints bis zum 10- bis 20-Fachen des beobachteten Präfix vorhersagen, mit fortlaufender Verbesserung (z. B. nur die ersten 50 Schritte beobachten und auf 1000 Schritte extrapolieren). Unsere Ablationsanalyse bestätigt die minimale Suffizienz von RELEX: Weder die Erhöhung des Unterraumrangs noch der Einsatz nichtlinearer Modellierung führt zu weiteren Extrapolationsgewinnen. Schließlich zeigen wir, dass der Erfolg von RELEX auf einem ''Entrauschungseffekt'' beruht: Durch die Projektion der Aktualisierungen auf den Rang-1-Unterraum verwirft das Modell stochastisches Optimierungsrauschen, das andernfalls die Leistung während der Extrapolation beeinträchtigen würde. Unser Code ist verfügbar unter https://github.com/weizhepei/RELEX.

English

Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains underexplored. In this work, we demonstrate that RLVR weight trajectories are extremely low-rank and highly predictable. Specifically, we find that the majority of downstream performance gains are captured by a rank-1 approximation of the parameter deltas, where the magnitude of this projection evolves near-linearly with training steps. Motivated by this, we propose a simple and compute-efficient method RELEX (REinforcement Learning EXtrapolation), which estimates the rank-1 subspace from a short observation window and extrapolates future checkpoints via linear regression, with no learned model required. Across three models (i.e., Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base), RELEX produces checkpoints that match or exceed RLVR performance on both in-domain and out-of-domain benchmarks, requiring as few as 15% steps of full RLVR training. Remarkably, RELEX is able to extrapolate far beyond the observation window at no training cost, predicting checkpoints up to 10-20times beyond the observed prefix with continued improvement (e.g., observe only the first 50 steps and extrapolate to 1000 steps). Our ablation analysis confirms the minimalist sufficiency of RELEX: neither increasing the subspace rank nor employing non-linear modeling yields further gains in extrapolation. Finally, we show that RELEX's success stems from a "denoising" effect: by projecting updates onto the rank-1 subspace, the model discards stochastic optimization noise that would otherwise degrade performance during extrapolation. Our code is available at https://github.com/weizhepei/RELEX.