Ottimizzazione Completa dei Parametri per Modelli Linguistici di Grandi Dimensioni con Risorse Limitati

Abstract

I Large Language Model (LLM) hanno rivoluzionato il Natural Language Processing (NLP) ma richiedono risorse GPU massicce per l'addestramento. Abbassare la soglia per l'addestramento degli LLM incoraggerebbe una maggiore partecipazione da parte dei ricercatori, portando benefici sia al mondo accademico che alla società. Mentre gli approcci esistenti si sono concentrati sul fine-tuning efficiente in termini di parametri, che regola o aggiunge un numero limitato di parametri, pochi hanno affrontato la sfida di regolare tutti i parametri degli LLM con risorse limitate. In questo lavoro, proponiamo un nuovo ottimizzatore, LOw-Memory Optimization (LOMO), che fonde il calcolo del gradiente e l'aggiornamento dei parametri in un unico passaggio per ridurre l'uso della memoria. Integrando LOMO con tecniche esistenti di risparmio della memoria, riduciamo l'uso della memoria al 10,8% rispetto all'approccio standard (soluzione DeepSpeed). Di conseguenza, il nostro approccio consente il fine-tuning completo dei parametri di un modello da 65B su una singola macchina con 8 RTX 3090, ciascuna con 24GB di memoria.

English

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but demand massive GPU resources for training. Lowering the threshold for LLMs training would encourage greater participation from researchers, benefiting both academia and society. While existing approaches have focused on parameter-efficient fine-tuning, which tunes or adds a small number of parameters, few have addressed the challenge of tuning the full parameters of LLMs with limited resources. In this work, we propose a new optimizer, LOw-Memory Optimization (LOMO), which fuses the gradient computation and the parameter update in one step to reduce memory usage. By integrating LOMO with existing memory saving techniques, we reduce memory usage to 10.8% compared to the standard approach (DeepSpeed solution). Consequently, our approach enables the full parameter fine-tuning of a 65B model on a single machine with 8 RTX 3090, each with 24GB memory.

Ottimizzazione Completa dei Parametri per Modelli Linguistici di Grandi Dimensioni con Risorse Limitati

Full Parameter Fine-tuning for Large Language Models with Limited Resources

Abstract

Support