Федеративная настройка всех параметров языковых моделей размером в миллиарды с затратами на передачу данных менее 18 килобайт
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes
December 11, 2023
Авторы: Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng
cs.AI
Аннотация
Предварительно обученные большие языковые модели (LLM) требуют тонкой настройки для повышения их отзывчивости на инструкции на естественном языке. Федеративное обучение (FL) предлагает способ выполнения тонкой настройки с использованием обильных данных на конечных устройствах без ущерба для конфиденциальности данных. Большинство существующих методов федеративной тонкой настройки для LLM полагаются на методы параметрически эффективной настройки, которые могут не достигать высот производительности, возможных при полной настройке параметров. Однако коммуникационные издержки, связанные с полной настройкой параметров, чрезмерно высоки как для серверов, так и для клиентов. В данной работе представлен FedKSeed, новый подход, который использует оптимизацию нулевого порядка (ZOO) с набором случайных начальных значений. Это позволяет выполнять федеративную полную настройку параметров миллиардных LLM непосредственно на устройствах. Наш метод значительно сокращает требования к передаче данных между сервером и клиентами до нескольких скалярных градиентов и случайных начальных значений, что составляет всего несколько тысяч байт. На основе этого мы разрабатываем стратегию для оценки значимости возмущений ZOO для FL, позволяющую проводить вероятностно-дифференцированную выборку начальных значений. Это уделяет приоритет возмущениям, которые оказывают большее влияние на точность модели. Эксперименты в шести сценариях с различными LLM, наборами данных и разбиениями данных демонстрируют, что наш подход превосходит существующие методы федеративной тонкой настройки LLM как с точки зрения эффективности коммуникаций, так и обобщения на новые задачи.
English
Pre-trained large language models (LLMs) require fine-tuning to improve their
responsiveness to natural language instructions. Federated learning (FL) offers
a way to perform fine-tuning using the abundant data on end devices without
compromising data privacy. Most existing federated fine-tuning methods for LLMs
rely on parameter-efficient fine-tuning techniques, which may not reach the
performance heights possible with full-parameter tuning. However, the
communication overhead associated with full-parameter tuning is prohibitively
high for both servers and clients. This work introduces FedKSeed, a novel
approach that employs zeroth-order optimization (ZOO) with a set of random
seeds. It enables federated full-parameter tuning of billion-sized LLMs
directly on devices. Our method significantly reduces transmission requirements
between the server and clients to just a few scalar gradients and random seeds,
amounting to only a few thousand bytes. Building on this, we develop a strategy
to assess the significance of ZOO perturbations for FL, allowing for
probability-differentiated seed sampling. This prioritizes perturbations that
have a greater impact on model accuracy. Experiments across six scenarios with
different LLMs, datasets and data partitions demonstrate that our approach
outperforms existing federated LLM fine-tuning methods in terms of both
communication efficiency and new task generalization.