Vollständige Parameter-Feinabstimmung für große Sprachmodelle mit begrenzten Ressourcen
Full Parameter Fine-tuning for Large Language Models with Limited Resources
June 16, 2023
Autoren: Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache (NLP) revolutioniert, erfordern jedoch enorme GPU-Ressourcen für das Training. Die Senkung der Schwelle für das Training von LLMs würde eine stärkere Beteiligung von Forschern fördern, was sowohl der Wissenschaft als auch der Gesellschaft zugutekäme. Während bestehende Ansätze sich auf parameter-effizientes Fine-Tuning konzentriert haben, bei dem eine kleine Anzahl von Parametern angepasst oder hinzugefügt wird, haben nur wenige die Herausforderung angegangen, die vollständigen Parameter von LLMs mit begrenzten Ressourcen anzupassen. In dieser Arbeit schlagen wir einen neuen Optimierer vor, die LOw-Memory Optimization (LOMO), die die Gradientenberechnung und die Parameteraktualisierung in einem Schritt zusammenführt, um den Speicherverbrauch zu reduzieren. Durch die Integration von LOMO mit bestehenden Speicherspar-Techniken reduzieren wir den Speicherverbrauch auf 10,8 % im Vergleich zum Standardansatz (DeepSpeed-Lösung). Folglich ermöglicht unser Ansatz das vollständige Fine-Tuning der Parameter eines 65B-Modells auf einer einzelnen Maschine mit 8 RTX 3090, jeweils mit 24 GB Speicher.
English
Large Language Models (LLMs) have revolutionized Natural Language Processing
(NLP) but demand massive GPU resources for training. Lowering the threshold for
LLMs training would encourage greater participation from researchers,
benefiting both academia and society. While existing approaches have focused on
parameter-efficient fine-tuning, which tunes or adds a small number of
parameters, few have addressed the challenge of tuning the full parameters of
LLMs with limited resources. In this work, we propose a new optimizer,
LOw-Memory Optimization (LOMO), which fuses the gradient computation and the
parameter update in one step to reduce memory usage. By integrating LOMO with
existing memory saving techniques, we reduce memory usage to 10.8% compared to
the standard approach (DeepSpeed solution). Consequently, our approach enables
the full parameter fine-tuning of a 65B model on a single machine with 8 RTX
3090, each with 24GB memory.