Ottimizzazione Completa dei Parametri per Modelli Linguistici di Grandi Dimensioni con Risorse Limitati
Full Parameter Fine-tuning for Large Language Models with Limited Resources
June 16, 2023
Autori: Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu
cs.AI
Abstract
I Large Language Model (LLM) hanno rivoluzionato il Natural Language Processing (NLP) ma richiedono risorse GPU massicce per l'addestramento. Abbassare la soglia per l'addestramento degli LLM incoraggerebbe una maggiore partecipazione da parte dei ricercatori, portando benefici sia al mondo accademico che alla società. Mentre gli approcci esistenti si sono concentrati sul fine-tuning efficiente in termini di parametri, che regola o aggiunge un numero limitato di parametri, pochi hanno affrontato la sfida di regolare tutti i parametri degli LLM con risorse limitate. In questo lavoro, proponiamo un nuovo ottimizzatore, LOw-Memory Optimization (LOMO), che fonde il calcolo del gradiente e l'aggiornamento dei parametri in un unico passaggio per ridurre l'uso della memoria. Integrando LOMO con tecniche esistenti di risparmio della memoria, riduciamo l'uso della memoria al 10,8% rispetto all'approccio standard (soluzione DeepSpeed). Di conseguenza, il nostro approccio consente il fine-tuning completo dei parametri di un modello da 65B su una singola macchina con 8 RTX 3090, ciascuna con 24GB di memoria.
English
Large Language Models (LLMs) have revolutionized Natural Language Processing
(NLP) but demand massive GPU resources for training. Lowering the threshold for
LLMs training would encourage greater participation from researchers,
benefiting both academia and society. While existing approaches have focused on
parameter-efficient fine-tuning, which tunes or adds a small number of
parameters, few have addressed the challenge of tuning the full parameters of
LLMs with limited resources. In this work, we propose a new optimizer,
LOw-Memory Optimization (LOMO), which fuses the gradient computation and the
parameter update in one step to reduce memory usage. By integrating LOMO with
existing memory saving techniques, we reduce memory usage to 10.8% compared to
the standard approach (DeepSpeed solution). Consequently, our approach enables
the full parameter fine-tuning of a 65B model on a single machine with 8 RTX
3090, each with 24GB memory.