Ottimizzazione Federata Completa dei Parametri per Modelli Linguistici di Dimensioni Milionarie con Costo di Comunicazione Inferiore a 18 Kilobyte

Abstract

I modelli linguistici di grandi dimensioni pre-addestrati (LLM) richiedono un fine-tuning per migliorare la loro reattività alle istruzioni in linguaggio naturale. L'apprendimento federato (FL) offre un modo per eseguire il fine-tuning utilizzando i dati abbondanti presenti sui dispositivi finali senza compromettere la privacy dei dati. La maggior parte dei metodi esistenti di fine-tuning federato per LLM si basa su tecniche di fine-tuning efficiente in termini di parametri, che potrebbero non raggiungere le prestazioni massime ottenibili con il fine-tuning completo dei parametri. Tuttavia, il sovraccarico di comunicazione associato al fine-tuning completo dei parametri è proibitivamente elevato sia per i server che per i client. Questo lavoro introduce FedKSeed, un approccio innovativo che utilizza l'ottimizzazione di ordine zero (ZOO) con un insieme di semi casuali. Ciò consente il fine-tuning federato completo dei parametri di LLM di dimensioni miliardarie direttamente sui dispositivi. Il nostro metodo riduce significativamente i requisiti di trasmissione tra il server e i client a pochi gradienti scalari e semi casuali, ammontando a solo poche migliaia di byte. Sulla base di ciò, sviluppiamo una strategia per valutare l'importanza delle perturbazioni ZOO per il FL, consentendo un campionamento dei semi differenziato per probabilità. Questo dà priorità alle perturbazioni che hanno un impatto maggiore sull'accuratezza del modello. Esperimenti condotti in sei scenari con diversi LLM, dataset e partizioni dei dati dimostrano che il nostro approccio supera i metodi esistenti di fine-tuning federato di LLM in termini di efficienza di comunicazione e generalizzazione su nuovi compiti.

English

Pre-trained large language models (LLMs) require fine-tuning to improve their responsiveness to natural language instructions. Federated learning (FL) offers a way to perform fine-tuning using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance heights possible with full-parameter tuning. However, the communication overhead associated with full-parameter tuning is prohibitively high for both servers and clients. This work introduces FedKSeed, a novel approach that employs zeroth-order optimization (ZOO) with a set of random seeds. It enables federated full-parameter tuning of billion-sized LLMs directly on devices. Our method significantly reduces transmission requirements between the server and clients to just a few scalar gradients and random seeds, amounting to only a few thousand bytes. Building on this, we develop a strategy to assess the significance of ZOO perturbations for FL, allowing for probability-differentiated seed sampling. This prioritizes perturbations that have a greater impact on model accuracy. Experiments across six scenarios with different LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in terms of both communication efficiency and new task generalization.

Ottimizzazione Federata Completa dei Parametri per Modelli Linguistici di Dimensioni Milionarie con Costo di Comunicazione Inferiore a 18 Kilobyte

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes

Abstract

Support