Réglage fédéré des paramètres complets de modèles de langage de taille milliardaire avec un coût de communication inférieur à 18 kilo-octets

papers.abstract

Les grands modèles de langage pré-entraînés (LLMs) nécessitent un ajustement fin pour améliorer leur réactivité aux instructions en langage naturel. L'apprentissage fédéré (FL) offre une manière d'effectuer cet ajustement fin en utilisant les données abondantes disponibles sur les appareils terminaux sans compromettre la confidentialité des données. La plupart des méthodes existantes d'ajustement fédéré pour les LLMs reposent sur des techniques d'ajustement fin paramétriquement efficaces, qui peuvent ne pas atteindre les performances maximales possibles avec un ajustement complet des paramètres. Cependant, la surcharge de communication associée à l'ajustement complet des paramètres est prohibitivement élevée pour les serveurs et les clients. Ce travail présente FedKSeed, une nouvelle approche qui utilise l'optimisation d'ordre zéro (ZOO) avec un ensemble de graines aléatoires. Elle permet l'ajustement fédéré complet des paramètres de LLMs de taille milliard directement sur les appareils. Notre méthode réduit considérablement les besoins de transmission entre le serveur et les clients à quelques gradients scalaires et graines aléatoires, ne représentant que quelques milliers d'octets. Sur cette base, nous développons une stratégie pour évaluer l'importance des perturbations ZOO pour le FL, permettant un échantillonnage de graines différencié par probabilité. Cela priorise les perturbations qui ont un impact plus important sur la précision du modèle. Des expériences menées dans six scénarios avec différents LLMs, ensembles de données et partitions de données démontrent que notre approche surpasse les méthodes existantes d'ajustement fédéré des LLMs en termes d'efficacité de communication et de généralisation à de nouvelles tâches.

English

Pre-trained large language models (LLMs) require fine-tuning to improve their responsiveness to natural language instructions. Federated learning (FL) offers a way to perform fine-tuning using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance heights possible with full-parameter tuning. However, the communication overhead associated with full-parameter tuning is prohibitively high for both servers and clients. This work introduces FedKSeed, a novel approach that employs zeroth-order optimization (ZOO) with a set of random seeds. It enables federated full-parameter tuning of billion-sized LLMs directly on devices. Our method significantly reduces transmission requirements between the server and clients to just a few scalar gradients and random seeds, amounting to only a few thousand bytes. Building on this, we develop a strategy to assess the significance of ZOO perturbations for FL, allowing for probability-differentiated seed sampling. This prioritizes perturbations that have a greater impact on model accuracy. Experiments across six scenarios with different LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in terms of both communication efficiency and new task generalization.

Réglage fédéré des paramètres complets de modèles de langage de taille milliardaire avec un coût de communication inférieur à 18 kilo-octets

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes

papers.abstract

Support