Modellierung niedrigrangiger Optimierungspfade zur Beschleunigung von LLM-RLVR

Zusammenfassung

Kürzlich hat sich das Skalieren von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) für große Sprachmodelle (LLMs) als effektives Trainingsparadigma erwiesen, um die Modellfähigkeiten erheblich zu verbessern. Dies erfordert, das Modell zu umfangreicher Exploration und Lernprozessen anzuleiten, was zu erheblichem Rechenaufwand führt und eine zentrale Herausforderung darstellt. Um die Anzahl der Trainingsschritte zu reduzieren, führen frühere Arbeiten eine lineare Extrapolation der Modellparameter durch. Die Dynamik der Modellparameteraktualisierungen während des RLVR-Trainings ist jedoch noch unzureichend verstanden. Um die Entwicklung von LLMs während des RLVR-Trainings weiter zu untersuchen, führen wir empirische Experimente durch und stellen fest, dass sich der Rang-1-Unterraum des Modells nicht linear entwickelt und seine Dominanz über die ursprünglichen Parameter während des LoRA-Trainings weiter verstärkt wird. Aufbauend auf diesen Erkenntnissen schlagen wir die nichtlineare Extrapolation niedrigrangiger Trajektorien (NExt) vor, ein neuartiges Framework, das niedrigrangige Parameterverläufe auf nichtlineare Weise modelliert und extrapoliert. Konkret trainieren wir zunächst das Modell mit LoRA und extrahieren den Rang-1-Unterraum der Parameterdifferenzen zu mehreren Trainingszeitpunkten, der dann für die nachfolgende nichtlineare Extrapolation verwendet wird. Anschließend nutzen wir den extrahierten Rang-1-Unterraum, um einen Prädiktor zu trainieren, der die Trajektorie der Parameteraktualisierungen während RLVR modellieren kann. Durch einen Vorhersage-Erweiterungs-Prozess werden dann Modellparameter extrapoliert, um eine Beschleunigung von RLVR zu erreichen. Um NExt weiter zu untersuchen und zu verstehen, führen wir umfassende Experimente durch, die die Wirksamkeit und Robustheit der Methode demonstrieren. Unser Ansatz reduziert den Rechenaufwand um etwa 37,5 % und bleibt dabei mit einer breiten Palette von RLVR-Algorithmen und Aufgaben kompatibel. Wir veröffentlichen unseren Code unter https://github.com/RUCAIBox/NExt.

English

Recently, scaling reinforcement learning with verifiable rewards (RLVR) for large language models (LLMs) has emerged as an effective training paradigm for significantly improving model capabilities, which requires guiding the model to perform extensive exploration and learning, leading to substantial computational overhead and becoming a key challenge. To reduce the number of training steps, Prior work performs linear extrapolation of model parameters. However, the dynamics of model parameter updates during RLVR training remain insufficiently understood. To further investigate the evolution of LLMs during RLVR training, we conduct empirical experiments and find that the rank-1 subspace of the model does not evolve linearly, and its dominance over the original parameters is further amplified during LoRA training. Based on the above insights, we propose the Nonlinear Extrapolation of low-rank trajectories (NExt), a novel framework that models and extrapolates low-rank parameter trajectories in a nonlinear manner. Concretely, we first train the model using LoRA and extract the rank-1 subspace of parameter differences at multiple training steps, which is then used for the subsequent nonlinear extrapolation. Afterward, we utilized the extracted rank-1 subspace to train a predictor, which can model the trajectory of parameter updates during RLVR, and then perform the predict-extend process to extrapolate model parameters, achieving the acceleration of RLVR. To further study and understand NExt, we conduct comprehensive experiments that demonstrate the effectiveness and robustness of the method. Our method reduces computational overhead by approximately 37.5\% while remaining compatible with a wide range of RLVR algorithms and tasks. We release our code in https://github.com/RUCAIBox/NExt.

Modellierung niedrigrangiger Optimierungspfade zur Beschleunigung von LLM-RLVR

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

Zusammenfassung

Support