Speichereffizientes Training von LLM mit Online-Subspace-Abstieg

papers.abstract

In letzter Zeit haben eine Vielzahl von speicher-effizienten LLM-Trainingsalgorithmen erheblich an Popularität gewonnen. Diese Methoden nutzen die Niedrigrangstruktur der Gradienten, um die Optimiererzustände mithilfe einer Projektionsmatrix in einen Unterraum zu projizieren, die durch Singulärwertzerlegung (SVD) gefunden wird. Die Konvergenz dieser Algorithmen hängt jedoch stark von den Aktualisierungsregeln ihrer Projektionsmatrix ab. In dieser Arbeit bieten wir die erste Konvergenzgarantie für beliebige Aktualisierungsregeln der Projektionsmatrix. Diese Garantie ist im Allgemeinen auf Optimierer anwendbar, die mit Hamiltonian Descent analysiert werden können, einschließlich der häufigsten wie LION und Adam. Inspiriert von unserem theoretischen Verständnis schlagen wir Online Subspace Descent vor, eine neue Familie von Subspace-Descent-Optimierern ohne SVD. Anstatt die Projektionsmatrix mit Eigenvektoren zu aktualisieren, aktualisiert Online Subspace Descent die Projektionsmatrix mit Online-PCA. Online Subspace Descent ist flexibel und führt nur minimale zusätzliche Belastung beim Training ein. Wir zeigen, dass Online Subspace Descent für die Aufgabe des Pretrainings von LLaMA-Modellen mit 60M bis 7B Parametern auf dem C4-Datensatz eine niedrigere Perplexität und eine bessere Leistung bei nachgelagerten Aufgaben erzielt als modernste Niedrigrang-Trainingsmethoden in verschiedenen Einstellungen und den Abstand zu vollrangigen Baselines verringert.

English

Recently, a wide range of memory-efficient LLM training algorithms have gained substantial popularity. These methods leverage the low-rank structure of gradients to project optimizer states into a subspace using projection matrix found by singular value decomposition (SVD). However, convergence of these algorithms is highly dependent on the update rules of their projection matrix. In this work, we provide the first convergence guarantee for arbitrary update rules of projection matrix. This guarantee is generally applicable to optimizers that can be analyzed with Hamiltonian Descent, including most common ones, such as LION, Adam. Inspired by our theoretical understanding, we propose Online Subspace Descent, a new family of subspace descent optimizer without SVD. Instead of updating the projection matrix with eigenvectors, Online Subspace Descent updates the projection matrix with online PCA. Online Subspace Descent is flexible and introduces only minimum overhead to training. We show that for the task of pretraining LLaMA models ranging from 60M to 7B parameters on the C4 dataset, Online Subspace Descent achieves lower perplexity and better downstream tasks performance than state-of-the-art low-rank training methods across different settings and narrows the gap with full-rank baselines.

Speichereffizientes Training von LLM mit Online-Subspace-Abstieg

Memory-Efficient LLM Training with Online Subspace Descent

papers.abstract

Support