Réglage fédéré des paramètres complets de modèles de langage de taille milliardaire avec un coût de communication inférieur à 18 kilo-octets
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes
December 11, 2023
Auteurs: Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng
cs.AI
Résumé
Les grands modèles de langage pré-entraînés (LLMs) nécessitent un ajustement fin pour améliorer leur réactivité aux instructions en langage naturel. L'apprentissage fédéré (FL) offre une manière d'effectuer cet ajustement fin en utilisant les données abondantes disponibles sur les appareils terminaux sans compromettre la confidentialité des données. La plupart des méthodes existantes d'ajustement fédéré pour les LLMs reposent sur des techniques d'ajustement fin paramétriquement efficaces, qui peuvent ne pas atteindre les performances maximales possibles avec un ajustement complet des paramètres. Cependant, la surcharge de communication associée à l'ajustement complet des paramètres est prohibitivement élevée pour les serveurs et les clients. Ce travail présente FedKSeed, une nouvelle approche qui utilise l'optimisation d'ordre zéro (ZOO) avec un ensemble de graines aléatoires. Elle permet l'ajustement fédéré complet des paramètres de LLMs de taille milliard directement sur les appareils. Notre méthode réduit considérablement les besoins de transmission entre le serveur et les clients à quelques gradients scalaires et graines aléatoires, ne représentant que quelques milliers d'octets. Sur cette base, nous développons une stratégie pour évaluer l'importance des perturbations ZOO pour le FL, permettant un échantillonnage de graines différencié par probabilité. Cela priorise les perturbations qui ont un impact plus important sur la précision du modèle. Des expériences menées dans six scénarios avec différents LLMs, ensembles de données et partitions de données démontrent que notre approche surpasse les méthodes existantes d'ajustement fédéré des LLMs en termes d'efficacité de communication et de généralisation à de nouvelles tâches.
English
Pre-trained large language models (LLMs) require fine-tuning to improve their
responsiveness to natural language instructions. Federated learning (FL) offers
a way to perform fine-tuning using the abundant data on end devices without
compromising data privacy. Most existing federated fine-tuning methods for LLMs
rely on parameter-efficient fine-tuning techniques, which may not reach the
performance heights possible with full-parameter tuning. However, the
communication overhead associated with full-parameter tuning is prohibitively
high for both servers and clients. This work introduces FedKSeed, a novel
approach that employs zeroth-order optimization (ZOO) with a set of random
seeds. It enables federated full-parameter tuning of billion-sized LLMs
directly on devices. Our method significantly reduces transmission requirements
between the server and clients to just a few scalar gradients and random seeds,
amounting to only a few thousand bytes. Building on this, we develop a strategy
to assess the significance of ZOO perturbations for FL, allowing for
probability-differentiated seed sampling. This prioritizes perturbations that
have a greater impact on model accuracy. Experiments across six scenarios with
different LLMs, datasets and data partitions demonstrate that our approach
outperforms existing federated LLM fine-tuning methods in terms of both
communication efficiency and new task generalization.