Ajuste Fino Completo de Parâmetros para Modelos de Linguagem de Grande Porte com Recursos Limitados

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o Processamento de Linguagem Natural (PLN), mas exigem recursos massivos de GPU para treinamento. Reduzir o limiar para o treinamento de LLMs incentivaria uma maior participação de pesquisadores, beneficiando tanto a academia quanto a sociedade. Embora as abordagens existentes tenham se concentrado no ajuste fino eficiente em parâmetros, que ajusta ou adiciona um pequeno número de parâmetros, poucas abordaram o desafio de ajustar todos os parâmetros dos LLMs com recursos limitados. Neste trabalho, propomos um novo otimizador, LOw-Memory Optimization (LOMO), que funde o cálculo do gradiente e a atualização dos parâmetros em uma única etapa para reduzir o uso de memória. Ao integrar o LOMO com técnicas existentes de economia de memória, reduzimos o uso de memória para 10,8% em comparação com a abordagem padrão (solução DeepSpeed). Consequentemente, nossa abordagem permite o ajuste fino de todos os parâmetros de um modelo de 65B em uma única máquina com 8 RTX 3090, cada uma com 24GB de memória.

English

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but demand massive GPU resources for training. Lowering the threshold for LLMs training would encourage greater participation from researchers, benefiting both academia and society. While existing approaches have focused on parameter-efficient fine-tuning, which tunes or adds a small number of parameters, few have addressed the challenge of tuning the full parameters of LLMs with limited resources. In this work, we propose a new optimizer, LOw-Memory Optimization (LOMO), which fuses the gradient computation and the parameter update in one step to reduce memory usage. By integrating LOMO with existing memory saving techniques, we reduce memory usage to 10.8% compared to the standard approach (DeepSpeed solution). Consequently, our approach enables the full parameter fine-tuning of a 65B model on a single machine with 8 RTX 3090, each with 24GB memory.

Ajuste Fino Completo de Parâmetros para Modelos de Linguagem de Grande Porte com Recursos Limitados

Full Parameter Fine-tuning for Large Language Models with Limited Resources

Resumo

Support