Réglage fin de tous les paramètres pour les grands modèles de langage avec des ressources limitées

Résumé

Les modèles de langage de grande taille (LLMs) ont révolutionné le traitement du langage naturel (NLP) mais nécessitent d'importantes ressources GPU pour leur entraînement. Réduire le seuil d'accès à l'entraînement des LLMs encouragerait une plus grande participation des chercheurs, bénéficiant ainsi à la fois au monde académique et à la société. Bien que les approches existantes se soient concentrées sur le fine-tuning efficace en paramètres, qui ajuste ou ajoute un petit nombre de paramètres, peu ont abordé le défi de l'ajustement complet des paramètres des LLMs avec des ressources limitées. Dans ce travail, nous proposons un nouvel optimiseur, l'Optimisation à Faible Mémoire (LOMO), qui fusionne le calcul du gradient et la mise à jour des paramètres en une seule étape pour réduire l'utilisation de la mémoire. En intégrant LOMO avec des techniques existantes d'économie de mémoire, nous réduisons l'utilisation de la mémoire à 10,8 % par rapport à l'approche standard (solution DeepSpeed). Par conséquent, notre méthode permet le fine-tuning complet des paramètres d'un modèle de 65B sur une seule machine équipée de 8 RTX 3090, chacune disposant de 24 Go de mémoire.

English

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but demand massive GPU resources for training. Lowering the threshold for LLMs training would encourage greater participation from researchers, benefiting both academia and society. While existing approaches have focused on parameter-efficient fine-tuning, which tunes or adds a small number of parameters, few have addressed the challenge of tuning the full parameters of LLMs with limited resources. In this work, we propose a new optimizer, LOw-Memory Optimization (LOMO), which fuses the gradient computation and the parameter update in one step to reduce memory usage. By integrating LOMO with existing memory saving techniques, we reduce memory usage to 10.8% compared to the standard approach (DeepSpeed solution). Consequently, our approach enables the full parameter fine-tuning of a 65B model on a single machine with 8 RTX 3090, each with 24GB memory.

Réglage fin de tous les paramètres pour les grands modèles de langage avec des ressources limitées

Full Parameter Fine-tuning for Large Language Models with Limited Resources

Résumé

Support