Федеративная настройка всех параметров языковых моделей размером в миллиарды с затратами на передачу данных менее 18 килобайт

Аннотация

Предварительно обученные большие языковые модели (LLM) требуют тонкой настройки для повышения их отзывчивости на инструкции на естественном языке. Федеративное обучение (FL) предлагает способ выполнения тонкой настройки с использованием обильных данных на конечных устройствах без ущерба для конфиденциальности данных. Большинство существующих методов федеративной тонкой настройки для LLM полагаются на методы параметрически эффективной настройки, которые могут не достигать высот производительности, возможных при полной настройке параметров. Однако коммуникационные издержки, связанные с полной настройкой параметров, чрезмерно высоки как для серверов, так и для клиентов. В данной работе представлен FedKSeed, новый подход, который использует оптимизацию нулевого порядка (ZOO) с набором случайных начальных значений. Это позволяет выполнять федеративную полную настройку параметров миллиардных LLM непосредственно на устройствах. Наш метод значительно сокращает требования к передаче данных между сервером и клиентами до нескольких скалярных градиентов и случайных начальных значений, что составляет всего несколько тысяч байт. На основе этого мы разрабатываем стратегию для оценки значимости возмущений ZOO для FL, позволяющую проводить вероятностно-дифференцированную выборку начальных значений. Это уделяет приоритет возмущениям, которые оказывают большее влияние на точность модели. Эксперименты в шести сценариях с различными LLM, наборами данных и разбиениями данных демонстрируют, что наш подход превосходит существующие методы федеративной тонкой настройки LLM как с точки зрения эффективности коммуникаций, так и обобщения на новые задачи.

English

Pre-trained large language models (LLMs) require fine-tuning to improve their responsiveness to natural language instructions. Federated learning (FL) offers a way to perform fine-tuning using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance heights possible with full-parameter tuning. However, the communication overhead associated with full-parameter tuning is prohibitively high for both servers and clients. This work introduces FedKSeed, a novel approach that employs zeroth-order optimization (ZOO) with a set of random seeds. It enables federated full-parameter tuning of billion-sized LLMs directly on devices. Our method significantly reduces transmission requirements between the server and clients to just a few scalar gradients and random seeds, amounting to only a few thousand bytes. Building on this, we develop a strategy to assess the significance of ZOO perturbations for FL, allowing for probability-differentiated seed sampling. This prioritizes perturbations that have a greater impact on model accuracy. Experiments across six scenarios with different LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in terms of both communication efficiency and new task generalization.

Федеративная настройка всех параметров языковых моделей размером в миллиарды с затратами на передачу данных менее 18 килобайт

Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes

Аннотация

Support