Un entraînement RLVR minimal suffit : extrapolation des LLM via des trajectoires de rang 1

Résumé

L’apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme dominant pour améliorer le raisonnement dans les grands modèles de langage (LLMs), mais la géométrie sous-jacente des trajectoires paramétriques résultantes reste peu explorée. Dans ce travail, nous démontrons que les trajectoires des poids en RLVR sont de très faible rang et hautement prédictibles. Plus précisément, nous constatons que la majorité des gains de performance en aval sont capturés par une approximation de rang 1 des deltas de paramètres, où l’amplitude de cette projection évolue de façon quasi linéaire avec le nombre d’étapes d’entraînement. Motivés par cette observation, nous proposons une méthode simple et économiquement efficace en calcul, RELEX (REinforcement Learning EXtrapolation), qui estime le sous-espace de rang 1 à partir d’une courte fenêtre d’observation et extrapole les points de contrôle futurs par régression linéaire, sans nécessiter de modèle appris. Sur trois modèles (à savoir Qwen2.5-Math-1.5B, Qwen3-4B-Base et Qwen3-8B-Base), RELEX produit des points de contrôle qui égalent ou surpassent les performances du RLVR sur des benchmarks intra-domaine et hors domaine, en ne nécessitant qu’environ 15 % des étapes d’un entraînement RLVR complet. Fait remarquable, RELEX est capable d’extrapoler bien au-delà de la fenêtre d’observation sans coût d’entraînement, prédisant des points de contrôle jusqu’à 10 à 20 fois au-delà du préfixe observé avec une amélioration continue (par exemple, n’observer que les 50 premières étapes et extrapoler jusqu’à 1000 étapes). Notre analyse d’ablation confirme la suffisance minimaliste de RELEX : ni l’augmentation du rang du sous-espace ni l’emploi d’une modélisation non linéaire n’apportent de gains supplémentaires en extrapolation. Enfin, nous montrons que le succès de RELEX provient d’un effet de « débruitage » : en projetant les mises à jour sur le sous-espace de rang 1, le modèle élimine le bruit d’optimisation stochastique qui autrement dégraderait les performances lors de l’extrapolation. Notre code est disponible à l’adresse https://github.com/weizhepei/RELEX.

English

Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains underexplored. In this work, we demonstrate that RLVR weight trajectories are extremely low-rank and highly predictable. Specifically, we find that the majority of downstream performance gains are captured by a rank-1 approximation of the parameter deltas, where the magnitude of this projection evolves near-linearly with training steps. Motivated by this, we propose a simple and compute-efficient method RELEX (REinforcement Learning EXtrapolation), which estimates the rank-1 subspace from a short observation window and extrapolates future checkpoints via linear regression, with no learned model required. Across three models (i.e., Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base), RELEX produces checkpoints that match or exceed RLVR performance on both in-domain and out-of-domain benchmarks, requiring as few as 15% steps of full RLVR training. Remarkably, RELEX is able to extrapolate far beyond the observation window at no training cost, predicting checkpoints up to 10-20times beyond the observed prefix with continued improvement (e.g., observe only the first 50 steps and extrapolate to 1000 steps). Our ablation analysis confirms the minimalist sufficiency of RELEX: neither increasing the subspace rank nor employing non-linear modeling yields further gains in extrapolation. Finally, we show that RELEX's success stems from a "denoising" effect: by projecting updates onto the rank-1 subspace, the model discards stochastic optimization noise that would otherwise degrade performance during extrapolation. Our code is available at https://github.com/weizhepei/RELEX.