Je hebt slechts minimale RLVR-training nodig: LLM's extrapoleren via Rank-1-trajecten

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) is een dominant paradigma geworden voor het verbeteren van redeneren in grote taalmodellen (LLMs), maar de onderliggende geometrie van de resulterende parameterbanen blijft onderbelicht. In dit werk tonen we aan dat RLVR-gewichtstrajecten extreem lage rang hebben en zeer voorspelbaar zijn. Specifiek vinden we dat het grootste deel van de prestatiewinst in downstream taken wordt gevangen door een rang-1-benadering van de parameterdelta's, waarbij de grootte van deze projectie bijna lineair evolueert met trainingsstappen. Gemotiveerd hierdoor stellen we een eenvoudige en reken-efficiënte methode voor, RELEX (REinforcement Learning EXtrapolation), die de rang-1-deelruimte schat op basis van een kort observatievenster en toekomstige checkpoints extrapoleert via lineaire regressie, zonder dat een geleerd model nodig is. Over drie modellen (Qwen2.5-Math-1.5B, Qwen3-4B-Base en Qwen3-8B-Base) produceert RELEX checkpoints die de RLVR-prestaties evenaren of overtreffen op zowel binnen-domein als buiten-domein benchmarks, waarbij slechts 15% van de stappen van volledige RLVR-training nodig is. Opmerkelijk is dat RELEX in staat is ver buiten het observatievenster te extrapoleren zonder trainingskosten, en checkpoints voorspelt tot 10-20 keer verder dan het geobserveerde voorvoegsel met voortdurende verbetering (bijvoorbeeld alleen de eerste 50 stappen observeren en extrapoleren naar 1000 stappen). Onze ablatieanalyse bevestigt de minimalistische toereikendheid van RELEX: noch het verhogen van de deelruimte rang, noch het toepassen van niet-lineaire modellering levert verdere winst op in extrapolatie. Tot slot tonen we aan dat het succes van RELEX voortkomt uit een 'ontruisingseffect': door updates op de rang-1-deelruimte te projecteren, verwerpt het model stochastische optimalisatieruis die anders de prestaties tijdens extrapolatie zou verslechteren. Onze code is beschikbaar op https://github.com/weizhepei/RELEX.

English

Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains underexplored. In this work, we demonstrate that RLVR weight trajectories are extremely low-rank and highly predictable. Specifically, we find that the majority of downstream performance gains are captured by a rank-1 approximation of the parameter deltas, where the magnitude of this projection evolves near-linearly with training steps. Motivated by this, we propose a simple and compute-efficient method RELEX (REinforcement Learning EXtrapolation), which estimates the rank-1 subspace from a short observation window and extrapolates future checkpoints via linear regression, with no learned model required. Across three models (i.e., Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base), RELEX produces checkpoints that match or exceed RLVR performance on both in-domain and out-of-domain benchmarks, requiring as few as 15% steps of full RLVR training. Remarkably, RELEX is able to extrapolate far beyond the observation window at no training cost, predicting checkpoints up to 10-20times beyond the observed prefix with continued improvement (e.g., observe only the first 50 steps and extrapolate to 1000 steps). Our ablation analysis confirms the minimalist sufficiency of RELEX: neither increasing the subspace rank nor employing non-linear modeling yields further gains in extrapolation. Finally, we show that RELEX's success stems from a "denoising" effect: by projecting updates onto the rank-1 subspace, the model discards stochastic optimization noise that would otherwise degrade performance during extrapolation. Our code is available at https://github.com/weizhepei/RELEX.