Volledige parameterfine-tuning voor grote taalmodelen met beperkte middelen

Samenvatting

Grote Taalmodellen (LLMs) hebben een revolutie teweeggebracht in Natural Language Processing (NLP), maar vereisen enorme GPU-bronnen voor training. Het verlagen van de drempel voor het trainen van LLMs zou meer deelname van onderzoekers aanmoedigen, wat zowel de academische wereld als de samenleving ten goede komt. Hoewel bestaande benaderingen zich hebben gericht op parameter-efficiënte fine-tuning, waarbij een klein aantal parameters wordt afgestemd of toegevoegd, hebben weinigen de uitdaging aangepakt om de volledige parameters van LLMs af te stemmen met beperkte middelen. In dit werk stellen we een nieuwe optimizer voor, LOw-Memory Optimization (LOMO), die de gradientberekening en de parameterupdate in één stap samenvoegt om het geheugengebruik te verminderen. Door LOMO te integreren met bestaande geheugenbesparende technieken, verminderen we het geheugengebruik tot 10,8% in vergelijking met de standaardaanpak (DeepSpeed-oplossing). Hierdoor maakt onze aanpak het mogelijk om de volledige parameter fine-tuning van een 65B-model uit te voeren op een enkele machine met 8 RTX 3090, elk met 24GB geheugen.

English

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but demand massive GPU resources for training. Lowering the threshold for LLMs training would encourage greater participation from researchers, benefiting both academia and society. While existing approaches have focused on parameter-efficient fine-tuning, which tunes or adds a small number of parameters, few have addressed the challenge of tuning the full parameters of LLMs with limited resources. In this work, we propose a new optimizer, LOw-Memory Optimization (LOMO), which fuses the gradient computation and the parameter update in one step to reduce memory usage. By integrating LOMO with existing memory saving techniques, we reduce memory usage to 10.8% compared to the standard approach (DeepSpeed solution). Consequently, our approach enables the full parameter fine-tuning of a 65B model on a single machine with 8 RTX 3090, each with 24GB memory.

Volledige parameterfine-tuning voor grote taalmodelen met beperkte middelen

Full Parameter Fine-tuning for Large Language Models with Limited Resources

Samenvatting

Support