Полная тонкая настройка параметров для больших языковых моделей с ограниченными ресурсами
Full Parameter Fine-tuning for Large Language Models with Limited Resources
June 16, 2023
Авторы: Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu
cs.AI
Аннотация
Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP), но требуют огромных ресурсов GPU для обучения. Снижение порога для обучения LLM способствовало бы более активному участию исследователей, что принесло бы пользу как академическому сообществу, так и обществу в целом. Хотя существующие подходы сосредоточены на эффективной настройке параметров, которая предполагает настройку или добавление небольшого числа параметров, лишь немногие из них решают задачу настройки всех параметров LLM при ограниченных ресурсах. В данной работе мы предлагаем новый оптимизатор — LOw-Memory Optimization (LOMO), который объединяет вычисление градиента и обновление параметров в один шаг, чтобы сократить использование памяти. Интегрируя LOMO с существующими методами экономии памяти, мы сокращаем использование памяти до 10,8% по сравнению со стандартным подходом (решение DeepSpeed). В результате наш подход позволяет выполнить полную настройку параметров модели на 65 миллиардов параметров на одной машине с 8 видеокартами RTX 3090, каждая из которых имеет 24 ГБ памяти.
English
Large Language Models (LLMs) have revolutionized Natural Language Processing
(NLP) but demand massive GPU resources for training. Lowering the threshold for
LLMs training would encourage greater participation from researchers,
benefiting both academia and society. While existing approaches have focused on
parameter-efficient fine-tuning, which tunes or adds a small number of
parameters, few have addressed the challenge of tuning the full parameters of
LLMs with limited resources. In this work, we propose a new optimizer,
LOw-Memory Optimization (LOMO), which fuses the gradient computation and the
parameter update in one step to reduce memory usage. By integrating LOMO with
existing memory saving techniques, we reduce memory usage to 10.8% compared to
the standard approach (DeepSpeed solution). Consequently, our approach enables
the full parameter fine-tuning of a 65B model on a single machine with 8 RTX
3090, each with 24GB memory.