Modélisation des Trajectoires d'Optimisation de Bas Rang pour l'Accélération RLVR des LLM

Résumé

Récemment, la mise à l'échelle de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) pour les grands modèles de langage (LLM) est apparue comme un paradigme d'entraînement efficace pour améliorer significativement les capacités des modèles. Cette approche nécessite de guider le modèle pour qu'il effectue une exploration et un apprentissage approfondis, ce qui entraîne des coûts de calcul substantiels et constitue un défi majeur. Pour réduire le nombre d'étapes d'entraînement, les travaux antérieurs ont recours à l'extrapolation linéaire des paramètres du modèle. Cependant, la dynamique des mises à jour des paramètres du modèle durant l'entraînement RLVR reste insuffisamment comprise. Pour étudier plus avant l'évolution des LLM pendant l'entraînement RLVR, nous menons des expériences empiriques et constatons que le sous-espace de rang 1 du modèle n'évolue pas linéairement, et sa dominance sur les paramètres originaux est encore amplifiée lors de l'entraînement LoRA. Sur la base de ces observations, nous proposons l'Extrapolation Non Linéaire des trajectoires de faible rang (NExt), un nouveau cadre qui modélise et extrapole les trajectoires des paramètres de faible rang de manière non linéaire. Concrètement, nous entraînons d'abord le modèle en utilisant LoRA et extrayons le sous-espace de rang 1 des différences de paramètres à plusieurs étapes d'entraînement, qui est ensuite utilisé pour l'extrapolation non linéaire subséquente. Ensuite, nous utilisons le sous-espace de rang 1 extrait pour entraîner un prédicteur, capable de modéliser la trajectoire des mises à jour des paramètres durant le RLVR, puis nous effectuons le processus de prédiction-extension pour extrapoler les paramètres du modèle, permettant ainsi d'accélérer le RLVR. Pour approfondir l'étude et la compréhension de NExt, nous menons des expériences complètes qui démontrent l'efficacité et la robustesse de la méthode. Notre méthode réduit les coûts de calcul d'environ 37,5 % tout en restant compatible avec un large éventail d'algorithmes et de tâches RLVR. Nous publions notre code sur https://github.com/RUCAIBox/NExt.

English

Recently, scaling reinforcement learning with verifiable rewards (RLVR) for large language models (LLMs) has emerged as an effective training paradigm for significantly improving model capabilities, which requires guiding the model to perform extensive exploration and learning, leading to substantial computational overhead and becoming a key challenge. To reduce the number of training steps, Prior work performs linear extrapolation of model parameters. However, the dynamics of model parameter updates during RLVR training remain insufficiently understood. To further investigate the evolution of LLMs during RLVR training, we conduct empirical experiments and find that the rank-1 subspace of the model does not evolve linearly, and its dominance over the original parameters is further amplified during LoRA training. Based on the above insights, we propose the Nonlinear Extrapolation of low-rank trajectories (NExt), a novel framework that models and extrapolates low-rank parameter trajectories in a nonlinear manner. Concretely, we first train the model using LoRA and extract the rank-1 subspace of parameter differences at multiple training steps, which is then used for the subsequent nonlinear extrapolation. Afterward, we utilized the extracted rank-1 subspace to train a predictor, which can model the trajectory of parameter updates during RLVR, and then perform the predict-extend process to extrapolate model parameters, achieving the acceleration of RLVR. To further study and understand NExt, we conduct comprehensive experiments that demonstrate the effectiveness and robustness of the method. Our method reduces computational overhead by approximately 37.5\% while remaining compatible with a wide range of RLVR algorithms and tasks. We release our code in https://github.com/RUCAIBox/NExt.

Modélisation des Trajectoires d'Optimisation de Bas Rang pour l'Accélération RLVR des LLM

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

Résumé

Support