Ajuste Fino Completo de Parâmetros para Modelos de Linguagem de Grande Porte com Recursos Limitados
Full Parameter Fine-tuning for Large Language Models with Limited Resources
June 16, 2023
Autores: Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o Processamento de Linguagem Natural (PLN), mas exigem recursos massivos de GPU para treinamento. Reduzir o limiar para o treinamento de LLMs incentivaria uma maior participação de pesquisadores, beneficiando tanto a academia quanto a sociedade. Embora as abordagens existentes tenham se concentrado no ajuste fino eficiente em parâmetros, que ajusta ou adiciona um pequeno número de parâmetros, poucas abordaram o desafio de ajustar todos os parâmetros dos LLMs com recursos limitados. Neste trabalho, propomos um novo otimizador, LOw-Memory Optimization (LOMO), que funde o cálculo do gradiente e a atualização dos parâmetros em uma única etapa para reduzir o uso de memória. Ao integrar o LOMO com técnicas existentes de economia de memória, reduzimos o uso de memória para 10,8% em comparação com a abordagem padrão (solução DeepSpeed). Consequentemente, nossa abordagem permite o ajuste fino de todos os parâmetros de um modelo de 65B em uma única máquina com 8 RTX 3090, cada uma com 24GB de memória.
English
Large Language Models (LLMs) have revolutionized Natural Language Processing
(NLP) but demand massive GPU resources for training. Lowering the threshold for
LLMs training would encourage greater participation from researchers,
benefiting both academia and society. While existing approaches have focused on
parameter-efficient fine-tuning, which tunes or adds a small number of
parameters, few have addressed the challenge of tuning the full parameters of
LLMs with limited resources. In this work, we propose a new optimizer,
LOw-Memory Optimization (LOMO), which fuses the gradient computation and the
parameter update in one step to reduce memory usage. By integrating LOMO with
existing memory saving techniques, we reduce memory usage to 10.8% compared to
the standard approach (DeepSpeed solution). Consequently, our approach enables
the full parameter fine-tuning of a 65B model on a single machine with 8 RTX
3090, each with 24GB memory.