Ajuste Federado de Parâmetros Completos em Modelos de Linguagem de Bilhões de Parâmetros com Custo de Comunicação Inferior a 18 Kilobytes
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes
December 11, 2023
Autores: Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng
cs.AI
Resumo
Modelos de linguagem pré-treinados de grande escala (LLMs) requerem ajuste fino para melhorar sua capacidade de resposta a instruções em linguagem natural. O aprendizado federado (FL) oferece uma maneira de realizar esse ajuste fino utilizando os dados abundantes em dispositivos finais sem comprometer a privacidade dos dados. A maioria dos métodos existentes de ajuste fino federado para LLMs depende de técnicas de ajuste fino com eficiência de parâmetros, que podem não alcançar os níveis de desempenho possíveis com o ajuste de todos os parâmetros. No entanto, a sobrecarga de comunicação associada ao ajuste de todos os parâmetros é proibitivamente alta tanto para servidores quanto para clientes. Este trabalho introduz o FedKSeed, uma abordagem inovadora que emprega otimização de ordem zero (ZOO) com um conjunto de sementes aleatórias. Ele permite o ajuste federado de todos os parâmetros de LLMs de bilhões de parâmetros diretamente nos dispositivos. Nosso método reduz significativamente os requisitos de transmissão entre o servidor e os clientes para apenas alguns gradientes escalares e sementes aleatórias, totalizando apenas alguns milhares de bytes. Com base nisso, desenvolvemos uma estratégia para avaliar a significância das perturbações ZOO para FL, permitindo a amostragem de sementes com diferenciação de probabilidade. Isso prioriza perturbações que têm um maior impacto na precisão do modelo. Experimentos em seis cenários com diferentes LLMs, conjuntos de dados e partições de dados demonstram que nossa abordagem supera os métodos existentes de ajuste fino federado de LLMs em termos de eficiência de comunicação e generalização para novas tarefas.
English
Pre-trained large language models (LLMs) require fine-tuning to improve their
responsiveness to natural language instructions. Federated learning (FL) offers
a way to perform fine-tuning using the abundant data on end devices without
compromising data privacy. Most existing federated fine-tuning methods for LLMs
rely on parameter-efficient fine-tuning techniques, which may not reach the
performance heights possible with full-parameter tuning. However, the
communication overhead associated with full-parameter tuning is prohibitively
high for both servers and clients. This work introduces FedKSeed, a novel
approach that employs zeroth-order optimization (ZOO) with a set of random
seeds. It enables federated full-parameter tuning of billion-sized LLMs
directly on devices. Our method significantly reduces transmission requirements
between the server and clients to just a few scalar gradients and random seeds,
amounting to only a few thousand bytes. Building on this, we develop a strategy
to assess the significance of ZOO perturbations for FL, allowing for
probability-differentiated seed sampling. This prioritizes perturbations that
have a greater impact on model accuracy. Experiments across six scenarios with
different LLMs, datasets and data partitions demonstrate that our approach
outperforms existing federated LLM fine-tuning methods in terms of both
communication efficiency and new task generalization.