Entraînement LLM Économe en Mémoire avec Descente de Sous-Espace en Ligne

papers.abstract

Récemment, une large gamme d'algorithmes d'entraînement LLM efficaces en mémoire a gagné une popularité substantielle. Ces méthodes exploitent la structure de bas rang des gradients pour projeter les états de l'optimiseur dans un sous-espace en utilisant une matrice de projection trouvée par décomposition en valeurs singulières (SVD). Cependant, la convergence de ces algorithmes dépend fortement des règles de mise à jour de leur matrice de projection. Dans ce travail, nous fournissons la première garantie de convergence pour des règles de mise à jour arbitraires de la matrice de projection. Cette garantie s'applique généralement aux optimiseurs pouvant être analysés avec la Descente Hamiltonienne, y compris les plus courants tels que LION, Adam. Inspirés par notre compréhension théorique, nous proposons la Descente en Sous-espace en Ligne, une nouvelle famille d'optimiseurs de descente en sous-espace sans SVD. Au lieu de mettre à jour la matrice de projection avec des vecteurs propres, la Descente en Sous-espace en Ligne met à jour la matrice de projection avec une PCA en ligne. La Descente en Sous-espace en Ligne est flexible et n'introduit qu'un minimum de surcharge à l'entraînement. Nous montrons que pour la tâche de pré-entraînement des modèles LLaMA allant de 60M à 7B de paramètres sur l'ensemble de données C4, la Descente en Sous-espace en Ligne atteint une perplexité plus faible et de meilleures performances dans les tâches ultérieures que les méthodes d'entraînement de bas rang de pointe dans différents contextes, réduisant ainsi l'écart avec les références de rang complet.

English

Recently, a wide range of memory-efficient LLM training algorithms have gained substantial popularity. These methods leverage the low-rank structure of gradients to project optimizer states into a subspace using projection matrix found by singular value decomposition (SVD). However, convergence of these algorithms is highly dependent on the update rules of their projection matrix. In this work, we provide the first convergence guarantee for arbitrary update rules of projection matrix. This guarantee is generally applicable to optimizers that can be analyzed with Hamiltonian Descent, including most common ones, such as LION, Adam. Inspired by our theoretical understanding, we propose Online Subspace Descent, a new family of subspace descent optimizer without SVD. Instead of updating the projection matrix with eigenvectors, Online Subspace Descent updates the projection matrix with online PCA. Online Subspace Descent is flexible and introduces only minimum overhead to training. We show that for the task of pretraining LLaMA models ranging from 60M to 7B parameters on the C4 dataset, Online Subspace Descent achieves lower perplexity and better downstream tasks performance than state-of-the-art low-rank training methods across different settings and narrows the gap with full-rank baselines.

Entraînement LLM Économe en Mémoire avec Descente de Sous-Espace en Ligne

Memory-Efficient LLM Training with Online Subspace Descent

papers.abstract

Support