Ajuste fino de todos los parámetros para modelos de lenguaje grandes con recursos limitados

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han revolucionado el Procesamiento del Lenguaje Natural (NLP), pero requieren enormes recursos de GPU para su entrenamiento. Reducir el umbral para el entrenamiento de LLMs fomentaría una mayor participación de los investigadores, beneficiando tanto a la academia como a la sociedad. Si bien los enfoques existentes se han centrado en el ajuste fino eficiente en parámetros, que ajusta o añade un número reducido de parámetros, pocos han abordado el desafío de ajustar todos los parámetros de los LLMs con recursos limitados. En este trabajo, proponemos un nuevo optimizador, LOw-Memory Optimization (LOMO), que fusiona el cálculo del gradiente y la actualización de los parámetros en un solo paso para reducir el uso de memoria. Al integrar LOMO con técnicas existentes de ahorro de memoria, reducimos el uso de memoria al 10.8% en comparación con el enfoque estándar (solución DeepSpeed). Como resultado, nuestro enfoque permite el ajuste fino de todos los parámetros de un modelo de 65B en una sola máquina con 8 RTX 3090, cada una con 24GB de memoria.

English

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but demand massive GPU resources for training. Lowering the threshold for LLMs training would encourage greater participation from researchers, benefiting both academia and society. While existing approaches have focused on parameter-efficient fine-tuning, which tunes or adds a small number of parameters, few have addressed the challenge of tuning the full parameters of LLMs with limited resources. In this work, we propose a new optimizer, LOw-Memory Optimization (LOMO), which fuses the gradient computation and the parameter update in one step to reduce memory usage. By integrating LOMO with existing memory saving techniques, we reduce memory usage to 10.8% compared to the standard approach (DeepSpeed solution). Consequently, our approach enables the full parameter fine-tuning of a 65B model on a single machine with 8 RTX 3090, each with 24GB memory.

Ajuste fino de todos los parámetros para modelos de lenguaje grandes con recursos limitados

Full Parameter Fine-tuning for Large Language Models with Limited Resources

Resumen

Support