Ajuste fino de todos los parámetros para modelos de lenguaje grandes con recursos limitados
Full Parameter Fine-tuning for Large Language Models with Limited Resources
June 16, 2023
Autores: Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han revolucionado el Procesamiento del Lenguaje Natural (NLP), pero requieren enormes recursos de GPU para su entrenamiento. Reducir el umbral para el entrenamiento de LLMs fomentaría una mayor participación de los investigadores, beneficiando tanto a la academia como a la sociedad. Si bien los enfoques existentes se han centrado en el ajuste fino eficiente en parámetros, que ajusta o añade un número reducido de parámetros, pocos han abordado el desafío de ajustar todos los parámetros de los LLMs con recursos limitados. En este trabajo, proponemos un nuevo optimizador, LOw-Memory Optimization (LOMO), que fusiona el cálculo del gradiente y la actualización de los parámetros en un solo paso para reducir el uso de memoria. Al integrar LOMO con técnicas existentes de ahorro de memoria, reducimos el uso de memoria al 10.8% en comparación con el enfoque estándar (solución DeepSpeed). Como resultado, nuestro enfoque permite el ajuste fino de todos los parámetros de un modelo de 65B en una sola máquina con 8 RTX 3090, cada una con 24GB de memoria.
English
Large Language Models (LLMs) have revolutionized Natural Language Processing
(NLP) but demand massive GPU resources for training. Lowering the threshold for
LLMs training would encourage greater participation from researchers,
benefiting both academia and society. While existing approaches have focused on
parameter-efficient fine-tuning, which tunes or adds a small number of
parameters, few have addressed the challenge of tuning the full parameters of
LLMs with limited resources. In this work, we propose a new optimizer,
LOw-Memory Optimization (LOMO), which fuses the gradient computation and the
parameter update in one step to reduce memory usage. By integrating LOMO with
existing memory saving techniques, we reduce memory usage to 10.8% compared to
the standard approach (DeepSpeed solution). Consequently, our approach enables
the full parameter fine-tuning of a 65B model on a single machine with 8 RTX
3090, each with 24GB memory.