Solo se necesita un entrenamiento mínimo de RLVR: Extrapolación de LLMs mediante trayectorias de rango 1

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en un paradigma dominante para mejorar el razonamiento en modelos de lenguaje grandes (LLMs); sin embargo, la geometría subyacente de las trayectorias de parámetros resultantes sigue estando insuficientemente explorada. En este trabajo demostramos que las trayectorias de pesos en RLVR tienen un rango extremadamente bajo y son altamente predecibles. En concreto, encontramos que la mayoría de las ganancias de rendimiento posteriores se capturan mediante una aproximación de rango 1 de los deltas de parámetros, donde la magnitud de esta proyección evoluciona de forma casi lineal con los pasos de entrenamiento. Motivados por esto, proponemos un método simple y computacionalmente eficiente, RELEX (REinforcement Learning EXtrapolation), que estima el subespacio de rango 1 a partir de una ventana de observación corta y extrapola los puntos de control futuros mediante regresión lineal, sin requerir ningún modelo aprendido. En tres modelos (Qwen2.5-Math-1.5B, Qwen3-4B-Base y Qwen3-8B-Base), RELEX produce puntos de control que igualan o superan el rendimiento de RLVR en benchmarks tanto dentro del dominio como fuera de él, requiriendo tan solo un 15% de los pasos del entrenamiento completo de RLVR. Notablemente, RELEX es capaz de extrapolar mucho más allá de la ventana de observación sin costo de entrenamiento, prediciendo puntos de control hasta 10-20 veces más allá del prefijo observado con mejora continua (por ejemplo, observar solo los primeros 50 pasos y extrapolar a 1000 pasos). Nuestro análisis de ablación confirma la suficiencia minimalista de RELEX: ni aumentar el rango del subespacio ni emplear modelos no lineales produce mayores ganancias en la extrapolación. Finalmente, mostramos que el éxito de RELEX proviene de un efecto de "eliminación de ruido": al proyectar las actualizaciones sobre el subespacio de rango 1, el modelo descarta el ruido de optimización estocástica que de otro modo degradaría el rendimiento durante la extrapolación. Nuestro código está disponible en https://github.com/weizhepei/RELEX.

English

Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains underexplored. In this work, we demonstrate that RLVR weight trajectories are extremely low-rank and highly predictable. Specifically, we find that the majority of downstream performance gains are captured by a rank-1 approximation of the parameter deltas, where the magnitude of this projection evolves near-linearly with training steps. Motivated by this, we propose a simple and compute-efficient method RELEX (REinforcement Learning EXtrapolation), which estimates the rank-1 subspace from a short observation window and extrapolates future checkpoints via linear regression, with no learned model required. Across three models (i.e., Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base), RELEX produces checkpoints that match or exceed RLVR performance on both in-domain and out-of-domain benchmarks, requiring as few as 15% steps of full RLVR training. Remarkably, RELEX is able to extrapolate far beyond the observation window at no training cost, predicting checkpoints up to 10-20times beyond the observed prefix with continued improvement (e.g., observe only the first 50 steps and extrapolate to 1000 steps). Our ablation analysis confirms the minimalist sufficiency of RELEX: neither increasing the subspace rank nor employing non-linear modeling yields further gains in extrapolation. Finally, we show that RELEX's success stems from a "denoising" effect: by projecting updates onto the rank-1 subspace, the model discards stochastic optimization noise that would otherwise degrade performance during extrapolation. Our code is available at https://github.com/weizhepei/RELEX.