Ajuste Federado de Parámetros Completos en Modelos de Lenguaje de Miles de Millones con Costo de Comunicación Inferior a 18 Kilobytes
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes
December 11, 2023
Autores: Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng
cs.AI
Resumen
Los grandes modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) requieren ajuste fino para mejorar su capacidad de respuesta a instrucciones en lenguaje natural. El aprendizaje federado (FL, por sus siglas en inglés) ofrece una forma de realizar este ajuste utilizando los abundantes datos en dispositivos finales sin comprometer la privacidad de los datos. La mayoría de los métodos existentes de ajuste fino federado para LLMs se basan en técnicas de ajuste fino eficiente en parámetros, que pueden no alcanzar los niveles de rendimiento posibles con el ajuste de todos los parámetros. Sin embargo, la sobrecarga de comunicación asociada con el ajuste de todos los parámetros es prohibitivamente alta tanto para servidores como para clientes. Este trabajo introduce FedKSeed, un enfoque novedoso que emplea optimización de orden cero (ZOO, por sus siglas en inglés) con un conjunto de semillas aleatorias. Permite el ajuste federado de todos los parámetros de LLMs de miles de millones de parámetros directamente en los dispositivos. Nuestro método reduce significativamente los requisitos de transmisión entre el servidor y los clientes a solo unos pocos gradientes escalares y semillas aleatorias, lo que equivale a solo unos pocos miles de bytes. Sobre esta base, desarrollamos una estrategia para evaluar la importancia de las perturbaciones ZOO para FL, permitiendo un muestreo de semillas diferenciado por probabilidad. Esto prioriza las perturbaciones que tienen un mayor impacto en la precisión del modelo. Los experimentos en seis escenarios con diferentes LLMs, conjuntos de datos y particiones de datos demuestran que nuestro enfoque supera a los métodos existentes de ajuste fino federado de LLMs en términos de eficiencia de comunicación y generalización a nuevas tareas.
English
Pre-trained large language models (LLMs) require fine-tuning to improve their
responsiveness to natural language instructions. Federated learning (FL) offers
a way to perform fine-tuning using the abundant data on end devices without
compromising data privacy. Most existing federated fine-tuning methods for LLMs
rely on parameter-efficient fine-tuning techniques, which may not reach the
performance heights possible with full-parameter tuning. However, the
communication overhead associated with full-parameter tuning is prohibitively
high for both servers and clients. This work introduces FedKSeed, a novel
approach that employs zeroth-order optimization (ZOO) with a set of random
seeds. It enables federated full-parameter tuning of billion-sized LLMs
directly on devices. Our method significantly reduces transmission requirements
between the server and clients to just a few scalar gradients and random seeds,
amounting to only a few thousand bytes. Building on this, we develop a strategy
to assess the significance of ZOO perturbations for FL, allowing for
probability-differentiated seed sampling. This prioritizes perturbations that
have a greater impact on model accuracy. Experiments across six scenarios with
different LLMs, datasets and data partitions demonstrate that our approach
outperforms existing federated LLM fine-tuning methods in terms of both
communication efficiency and new task generalization.