Ottimizzazione Federata Completa dei Parametri per Modelli Linguistici di Dimensioni Milionarie con Costo di Comunicazione Inferiore a 18 Kilobyte
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes
December 11, 2023
Autori: Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng
cs.AI
Abstract
I modelli linguistici di grandi dimensioni pre-addestrati (LLM) richiedono un fine-tuning per migliorare la loro reattività alle istruzioni in linguaggio naturale. L'apprendimento federato (FL) offre un modo per eseguire il fine-tuning utilizzando i dati abbondanti presenti sui dispositivi finali senza compromettere la privacy dei dati. La maggior parte dei metodi esistenti di fine-tuning federato per LLM si basa su tecniche di fine-tuning efficiente in termini di parametri, che potrebbero non raggiungere le prestazioni massime ottenibili con il fine-tuning completo dei parametri. Tuttavia, il sovraccarico di comunicazione associato al fine-tuning completo dei parametri è proibitivamente elevato sia per i server che per i client. Questo lavoro introduce FedKSeed, un approccio innovativo che utilizza l'ottimizzazione di ordine zero (ZOO) con un insieme di semi casuali. Ciò consente il fine-tuning federato completo dei parametri di LLM di dimensioni miliardarie direttamente sui dispositivi. Il nostro metodo riduce significativamente i requisiti di trasmissione tra il server e i client a pochi gradienti scalari e semi casuali, ammontando a solo poche migliaia di byte. Sulla base di ciò, sviluppiamo una strategia per valutare l'importanza delle perturbazioni ZOO per il FL, consentendo un campionamento dei semi differenziato per probabilità. Questo dà priorità alle perturbazioni che hanno un impatto maggiore sull'accuratezza del modello. Esperimenti condotti in sei scenari con diversi LLM, dataset e partizioni dei dati dimostrano che il nostro approccio supera i metodi esistenti di fine-tuning federato di LLM in termini di efficienza di comunicazione e generalizzazione su nuovi compiti.
English
Pre-trained large language models (LLMs) require fine-tuning to improve their
responsiveness to natural language instructions. Federated learning (FL) offers
a way to perform fine-tuning using the abundant data on end devices without
compromising data privacy. Most existing federated fine-tuning methods for LLMs
rely on parameter-efficient fine-tuning techniques, which may not reach the
performance heights possible with full-parameter tuning. However, the
communication overhead associated with full-parameter tuning is prohibitively
high for both servers and clients. This work introduces FedKSeed, a novel
approach that employs zeroth-order optimization (ZOO) with a set of random
seeds. It enables federated full-parameter tuning of billion-sized LLMs
directly on devices. Our method significantly reduces transmission requirements
between the server and clients to just a few scalar gradients and random seeds,
amounting to only a few thousand bytes. Building on this, we develop a strategy
to assess the significance of ZOO perturbations for FL, allowing for
probability-differentiated seed sampling. This prioritizes perturbations that
have a greater impact on model accuracy. Experiments across six scenarios with
different LLMs, datasets and data partitions demonstrate that our approach
outperforms existing federated LLM fine-tuning methods in terms of both
communication efficiency and new task generalization.