Você Só Precisa de Treinamento RLVR Mínimo: Extrapolando LLMs via Trajetórias de Rank-1

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR, do inglês *Reinforcement Learning with Verifiable Rewards*) tornou-se um paradigma dominante para melhorar o raciocínio em grandes modelos de linguagem (LLMs, do inglês *Large Language Models*); no entanto, a geometria subjacente das trajetórias dos parâmetros resultantes permanece pouco explorada. Neste trabalho, demonstramos que as trajetórias dos pesos do RLVR são extremamente de baixo posto e altamente previsíveis. Especificamente, descobrimos que a maioria dos ganhos de desempenho downstream é capturada por uma aproximação de posto 1 dos deltas dos parâmetros, onde a magnitude dessa projeção evolui de forma quase linear com as etapas de treinamento. Motivados por isso, propomos um método simples e computacionalmente eficiente, o RELEX (do inglês *REinforcement Learning EXtrapolation*), que estima o subespaço de posto 1 a partir de uma janela de observação curta e extrapola futuros checkpoints por meio de regressão linear, sem necessidade de modelo aprendido. Em três modelos (a saber, Qwen2.5-Math-1.5B, Qwen3-4B-Base e Qwen3-8B-Base), o RELEX produz checkpoints que igualam ou superam o desempenho do RLVR tanto em benchmarks dentro quanto fora do domínio, exigindo apenas 15% das etapas do treinamento completo do RLVR. Notavelmente, o RELEX é capaz de extrapolar muito além da janela de observação sem custo de treinamento, prevendo checkpoints até 10 a 20 vezes além do prefixo observado, com melhoria contínua (por exemplo, observar apenas os primeiros 50 passos e extrapolar para 1000 passos). Nossa análise de ablação confirma a suficiência minimalista do RELEX: nem aumentar o posto do subespaço nem empregar modelagem não linear produz ganhos adicionais na extrapolação. Por fim, mostramos que o sucesso do RELEX decorre de um efeito de "remoção de ruído": ao projetar as atualizações no subespaço de posto 1, o modelo descarta o ruído de otimização estocástica que, de outra forma, degradaria o desempenho durante a extrapolação. Nosso código está disponível em https://github.com/weizhepei/RELEX.

English

Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains underexplored. In this work, we demonstrate that RLVR weight trajectories are extremely low-rank and highly predictable. Specifically, we find that the majority of downstream performance gains are captured by a rank-1 approximation of the parameter deltas, where the magnitude of this projection evolves near-linearly with training steps. Motivated by this, we propose a simple and compute-efficient method RELEX (REinforcement Learning EXtrapolation), which estimates the rank-1 subspace from a short observation window and extrapolates future checkpoints via linear regression, with no learned model required. Across three models (i.e., Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base), RELEX produces checkpoints that match or exceed RLVR performance on both in-domain and out-of-domain benchmarks, requiring as few as 15% steps of full RLVR training. Remarkably, RELEX is able to extrapolate far beyond the observation window at no training cost, predicting checkpoints up to 10-20times beyond the observed prefix with continued improvement (e.g., observe only the first 50 steps and extrapolate to 1000 steps). Our ablation analysis confirms the minimalist sufficiency of RELEX: neither increasing the subspace rank nor employing non-linear modeling yields further gains in extrapolation. Finally, we show that RELEX's success stems from a "denoising" effect: by projecting updates onto the rank-1 subspace, the model discards stochastic optimization noise that would otherwise degrade performance during extrapolation. Our code is available at https://github.com/weizhepei/RELEX.