Föderierte Feinabstimmung von Milliarden-großen Sprachmodellen mit vollständigen Parametern bei Kommunikationskosten unter 18 Kilobytes

papers.abstract

Vortrainierte große Sprachmodelle (LLMs) benötigen Feinabstimmung, um ihre Reaktionsfähigkeit auf natürliche Sprachbefehle zu verbessern. Federated Learning (FL) bietet eine Möglichkeit, diese Feinabstimmung unter Verwendung der reichlich vorhandenen Daten auf Endgeräten durchzuführen, ohne die Datensicherheit zu gefährden. Die meisten bestehenden Methoden zur federated Feinabstimmung von LLMs stützen sich auf parameter-effiziente Feinabstimmungstechniken, die möglicherweise nicht die Leistungshöhen erreichen, die mit einer vollständigen Parameterabstimmung möglich sind. Der mit der vollständigen Parameterabstimmung verbundene Kommunikationsaufwand ist jedoch sowohl für Server als auch für Clients unverhältnismäßig hoch. Diese Arbeit stellt FedKSeed vor, einen neuartigen Ansatz, der die Optimierung nullter Ordnung (ZOO) mit einer Reihe von Zufallsseeds verwendet. Es ermöglicht die federated vollständige Parameterabstimmung von milliardenschweren LLMs direkt auf den Geräten. Unsere Methode reduziert die Übertragungsanforderungen zwischen Server und Clients erheblich auf nur wenige skalare Gradienten und Zufallsseeds, was nur wenige tausend Bytes ausmacht. Darauf aufbauend entwickeln wir eine Strategie, um die Bedeutung von ZOO-Störungen für FL zu bewerten, was eine wahrscheinlichkeitsdifferenzierte Seed-Stichprobe ermöglicht. Dadurch werden Störungen priorisiert, die einen größeren Einfluss auf die Modellgenauigkeit haben. Experimente in sechs Szenarien mit verschiedenen LLMs, Datensätzen und Datenpartitionen zeigen, dass unser Ansatz bestehende Methoden zur federated Feinabstimmung von LLMs sowohl in Bezug auf die Kommunikationseffizienz als auch auf die Generalisierung neuer Aufgaben übertrifft.

English

Pre-trained large language models (LLMs) require fine-tuning to improve their responsiveness to natural language instructions. Federated learning (FL) offers a way to perform fine-tuning using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance heights possible with full-parameter tuning. However, the communication overhead associated with full-parameter tuning is prohibitively high for both servers and clients. This work introduces FedKSeed, a novel approach that employs zeroth-order optimization (ZOO) with a set of random seeds. It enables federated full-parameter tuning of billion-sized LLMs directly on devices. Our method significantly reduces transmission requirements between the server and clients to just a few scalar gradients and random seeds, amounting to only a few thousand bytes. Building on this, we develop a strategy to assess the significance of ZOO perturbations for FL, allowing for probability-differentiated seed sampling. This prioritizes perturbations that have a greater impact on model accuracy. Experiments across six scenarios with different LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in terms of both communication efficiency and new task generalization.

Föderierte Feinabstimmung von Milliarden-großen Sprachmodellen mit vollständigen Parametern bei Kommunikationskosten unter 18 Kilobytes

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes

papers.abstract

Support