ChatPaper.aiChatPaper

通信コスト18キロバイト未満での10億規模言語モデルのフェデレーテッドフルパラメータチューニング

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes

December 11, 2023
著者: Zhen Qin, Daoyuan Chen, Bingchen Qian, Bolin Ding, Yaliang Li, Shuiguang Deng
cs.AI

要旨

事前学習済みの大規模言語モデル(LLM)は、自然言語指示への応答性を向上させるためにファインチューニングを必要とします。フェデレーテッドラーニング(FL)は、データプライバシーを損なうことなく、エンドデバイス上の豊富なデータを使用してファインチューニングを実行する方法を提供します。既存のLLM向けフェデレーテッドファインチューニング手法の多くは、パラメータ効率的なファインチューニング技術に依存しており、フルパラメータチューニングで可能な性能の高さに到達できない場合があります。しかし、フルパラメータチューニングに関連する通信オーバーヘッドは、サーバーとクライアントの両方にとって非常に高くなります。本研究では、ゼロ次最適化(ZOO)とランダムシードのセットを採用した新しいアプローチであるFedKSeedを紹介します。これにより、デバイス上で直接、数十億規模のLLMのフェデレーテッドフルパラメータチューニングが可能になります。私たちの手法は、サーバーとクライアント間の伝送要件をわずか数個のスカラー勾配とランダムシードに大幅に削減し、わずか数千バイトに抑えます。これを基盤として、FLにおけるZOO摂動の重要性を評価する戦略を開発し、確率差別化されたシードサンプリングを可能にします。これにより、モデルの精度に大きな影響を与える摂動を優先的に選択します。異なるLLM、データセット、データ分割を用いた6つのシナリオでの実験により、私たちのアプローチが、通信効率と新規タスクの汎化性能の両面で、既存のフェデレーテッドLLMファインチューニング手法を上回ることが実証されました。
English
Pre-trained large language models (LLMs) require fine-tuning to improve their responsiveness to natural language instructions. Federated learning (FL) offers a way to perform fine-tuning using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance heights possible with full-parameter tuning. However, the communication overhead associated with full-parameter tuning is prohibitively high for both servers and clients. This work introduces FedKSeed, a novel approach that employs zeroth-order optimization (ZOO) with a set of random seeds. It enables federated full-parameter tuning of billion-sized LLMs directly on devices. Our method significantly reduces transmission requirements between the server and clients to just a few scalar gradients and random seeds, amounting to only a few thousand bytes. Building on this, we develop a strategy to assess the significance of ZOO perturbations for FL, allowing for probability-differentiated seed sampling. This prioritizes perturbations that have a greater impact on model accuracy. Experiments across six scenarios with different LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in terms of both communication efficiency and new task generalization.
PDF71December 15, 2024