Volledige parameterfine-tuning voor grote taalmodelen met beperkte middelen
Full Parameter Fine-tuning for Large Language Models with Limited Resources
June 16, 2023
Auteurs: Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben een revolutie teweeggebracht in Natural Language Processing (NLP), maar vereisen enorme GPU-bronnen voor training. Het verlagen van de drempel voor het trainen van LLMs zou meer deelname van onderzoekers aanmoedigen, wat zowel de academische wereld als de samenleving ten goede komt. Hoewel bestaande benaderingen zich hebben gericht op parameter-efficiënte fine-tuning, waarbij een klein aantal parameters wordt afgestemd of toegevoegd, hebben weinigen de uitdaging aangepakt om de volledige parameters van LLMs af te stemmen met beperkte middelen. In dit werk stellen we een nieuwe optimizer voor, LOw-Memory Optimization (LOMO), die de gradientberekening en de parameterupdate in één stap samenvoegt om het geheugengebruik te verminderen. Door LOMO te integreren met bestaande geheugenbesparende technieken, verminderen we het geheugengebruik tot 10,8% in vergelijking met de standaardaanpak (DeepSpeed-oplossing). Hierdoor maakt onze aanpak het mogelijk om de volledige parameter fine-tuning van een 65B-model uit te voeren op een enkele machine met 8 RTX 3090, elk met 24GB geheugen.
English
Large Language Models (LLMs) have revolutionized Natural Language Processing
(NLP) but demand massive GPU resources for training. Lowering the threshold for
LLMs training would encourage greater participation from researchers,
benefiting both academia and society. While existing approaches have focused on
parameter-efficient fine-tuning, which tunes or adds a small number of
parameters, few have addressed the challenge of tuning the full parameters of
LLMs with limited resources. In this work, we propose a new optimizer,
LOw-Memory Optimization (LOMO), which fuses the gradient computation and the
parameter update in one step to reduce memory usage. By integrating LOMO with
existing memory saving techniques, we reduce memory usage to 10.8% compared to
the standard approach (DeepSpeed solution). Consequently, our approach enables
the full parameter fine-tuning of a 65B model on a single machine with 8 RTX
3090, each with 24GB memory.