Föderierte Feinabstimmung von Milliarden-großen Sprachmodellen mit vollständigen Parametern bei Kommunikationskosten unter 18 Kilobytes
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes
December 11, 2023
Autoren: Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng
cs.AI
Zusammenfassung
Vortrainierte große Sprachmodelle (LLMs) benötigen Feinabstimmung, um ihre Reaktionsfähigkeit auf natürliche Sprachbefehle zu verbessern. Federated Learning (FL) bietet eine Möglichkeit, diese Feinabstimmung unter Verwendung der reichlich vorhandenen Daten auf Endgeräten durchzuführen, ohne die Datensicherheit zu gefährden. Die meisten bestehenden Methoden zur federated Feinabstimmung von LLMs stützen sich auf parameter-effiziente Feinabstimmungstechniken, die möglicherweise nicht die Leistungshöhen erreichen, die mit einer vollständigen Parameterabstimmung möglich sind. Der mit der vollständigen Parameterabstimmung verbundene Kommunikationsaufwand ist jedoch sowohl für Server als auch für Clients unverhältnismäßig hoch. Diese Arbeit stellt FedKSeed vor, einen neuartigen Ansatz, der die Optimierung nullter Ordnung (ZOO) mit einer Reihe von Zufallsseeds verwendet. Es ermöglicht die federated vollständige Parameterabstimmung von milliardenschweren LLMs direkt auf den Geräten. Unsere Methode reduziert die Übertragungsanforderungen zwischen Server und Clients erheblich auf nur wenige skalare Gradienten und Zufallsseeds, was nur wenige tausend Bytes ausmacht. Darauf aufbauend entwickeln wir eine Strategie, um die Bedeutung von ZOO-Störungen für FL zu bewerten, was eine wahrscheinlichkeitsdifferenzierte Seed-Stichprobe ermöglicht. Dadurch werden Störungen priorisiert, die einen größeren Einfluss auf die Modellgenauigkeit haben. Experimente in sechs Szenarien mit verschiedenen LLMs, Datensätzen und Datenpartitionen zeigen, dass unser Ansatz bestehende Methoden zur federated Feinabstimmung von LLMs sowohl in Bezug auf die Kommunikationseffizienz als auch auf die Generalisierung neuer Aufgaben übertrifft.
English
Pre-trained large language models (LLMs) require fine-tuning to improve their
responsiveness to natural language instructions. Federated learning (FL) offers
a way to perform fine-tuning using the abundant data on end devices without
compromising data privacy. Most existing federated fine-tuning methods for LLMs
rely on parameter-efficient fine-tuning techniques, which may not reach the
performance heights possible with full-parameter tuning. However, the
communication overhead associated with full-parameter tuning is prohibitively
high for both servers and clients. This work introduces FedKSeed, a novel
approach that employs zeroth-order optimization (ZOO) with a set of random
seeds. It enables federated full-parameter tuning of billion-sized LLMs
directly on devices. Our method significantly reduces transmission requirements
between the server and clients to just a few scalar gradients and random seeds,
amounting to only a few thousand bytes. Building on this, we develop a strategy
to assess the significance of ZOO perturbations for FL, allowing for
probability-differentiated seed sampling. This prioritizes perturbations that
have a greater impact on model accuracy. Experiments across six scenarios with
different LLMs, datasets and data partitions demonstrate that our approach
outperforms existing federated LLM fine-tuning methods in terms of both
communication efficiency and new task generalization.