Modelado de Trayectorias de Optimización de Bajo Rango para la Aceleración RLVR en LLM

Resumen

Recientemente, el escalado del aprendizaje por refuerzo con recompensas verificables (RLVR) para modelos de lenguaje grandes (LLM) ha surgido como un paradigma de entrenamiento efectivo para mejorar significativamente las capacidades del modelo. Este enfoque requiere guiar al modelo para que realice una exploración y aprendizaje extensivos, lo que conlleva una sobrecarga computacional sustancial y se convierte en un desafío clave. Para reducir el número de pasos de entrenamiento, trabajos previos realizan extrapolación lineal de los parámetros del modelo. Sin embargo, la dinámica de las actualizaciones de los parámetros del modelo durante el entrenamiento RLVR sigue sin comprenderse suficientemente. Para investigar más a fondo la evolución de los LLM durante el entrenamiento RLVR, realizamos experimentos empíricos y encontramos que el subespacio de rango 1 del modelo no evoluciona linealmente, y su dominio sobre los parámetros originales se amplifica aún más durante el entrenamiento con LoRA. Basándonos en estas observaciones, proponemos la Extrapolación No Lineal de trayectorias de bajo rango (NExt), un marco novedoso que modela y extrapola las trayectorias de los parámetros de bajo rango de manera no lineal. Concretamente, primero entrenamos el modelo usando LoRA y extraemos el subespacio de rango 1 de las diferencias de parámetros en múltiples pasos de entrenamiento, que luego se utiliza para la extrapolación no lineal subsiguiente. Posteriormente, utilizamos el subespacio de rango 1 extraído para entrenar un predictor, que puede modelar la trayectoria de las actualizaciones de parámetros durante RLVR, y luego realizar el proceso de predecir-extender para extrapolar los parámetros del modelo, logrando la aceleración de RLVR. Para estudiar y comprender mejor NExt, realizamos experimentos exhaustivos que demuestran la efectividad y robustez del método. Nuestro método reduce la sobrecarga computacional en aproximadamente un 37.5\% mientras mantiene la compatibilidad con una amplia gama de algoritmos y tareas RLVR. Publicamos nuestro código en https://github.com/RUCAIBox/NExt.

English

Recently, scaling reinforcement learning with verifiable rewards (RLVR) for large language models (LLMs) has emerged as an effective training paradigm for significantly improving model capabilities, which requires guiding the model to perform extensive exploration and learning, leading to substantial computational overhead and becoming a key challenge. To reduce the number of training steps, Prior work performs linear extrapolation of model parameters. However, the dynamics of model parameter updates during RLVR training remain insufficiently understood. To further investigate the evolution of LLMs during RLVR training, we conduct empirical experiments and find that the rank-1 subspace of the model does not evolve linearly, and its dominance over the original parameters is further amplified during LoRA training. Based on the above insights, we propose the Nonlinear Extrapolation of low-rank trajectories (NExt), a novel framework that models and extrapolates low-rank parameter trajectories in a nonlinear manner. Concretely, we first train the model using LoRA and extract the rank-1 subspace of parameter differences at multiple training steps, which is then used for the subsequent nonlinear extrapolation. Afterward, we utilized the extracted rank-1 subspace to train a predictor, which can model the trajectory of parameter updates during RLVR, and then perform the predict-extend process to extrapolate model parameters, achieving the acceleration of RLVR. To further study and understand NExt, we conduct comprehensive experiments that demonstrate the effectiveness and robustness of the method. Our method reduces computational overhead by approximately 37.5\% while remaining compatible with a wide range of RLVR algorithms and tasks. We release our code in https://github.com/RUCAIBox/NExt.

Modelado de Trayectorias de Optimización de Bajo Rango para la Aceleración RLVR en LLM

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

Resumen

Support