Повышение конфиденциальности и эффективности коммуникации в не-IID федеративном обучении с адаптивным квантованием и дифференциальной конфиденциальностью

Аннотация

Федеративное обучение (ФО) — это распределенный метод машинного обучения, при котором множество устройств совместно обучают модель под управлением центрального сервера без обмена исходными данными. Одной из ключевых проблем ФО является коммуникационное узкое место, вызванное вариациями скорости соединения и пропускной способности между устройствами. Поэтому крайне важно уменьшать объем передаваемых данных в процессе обучения. Кроме того, существует потенциальный риск раскрытия конфиденциальной информации через анализ модели или градиентов во время обучения. Для решения проблем конфиденциальности и эффективности коммуникаций мы комбинируем методы дифференциальной приватности (ДП) и адаптивного квантования. Мы используем ДП на основе распределения Лапласа для обеспечения конфиденциальности, что остается относительно малоизученным в контексте ФО и обеспечивает более строгие гарантии приватности по сравнению с ДП на основе гауссовского механизма. Мы предлагаем простой и эффективный глобальный планировщик разрядности на основе косинусного аннилинга по раундам, а также клиентский планировщик, который динамически адаптируется на основе вклада клиента, оцениваемого через анализ энтропии набора данных. Мы оцениваем наш подход с помощью обширных экспериментов на наборах данных CIFAR-10, MNIST и медицинских изображений, используя не-IID распределения данных при различном количестве клиентов, планировщиках разрядности и бюджетах приватности. Результаты показывают, что наши методы адаптивного квантования сокращают общий объем передаваемых данных до 52,64% для MNIST, 45,06% для CIFAR-10 и от 31% до 37% для наборов медицинских изображений по сравнению с обучением на 32-битных числах с плавающей запятой, при этом сохраняя конкурентоспособную точность модели и обеспечивая надежную защиту приватности за счет дифференциальной приватности.

English

Federated learning (FL) is a distributed machine learning method where multiple devices collaboratively train a model under the management of a central server without sharing underlying data. One of the key challenges of FL is the communication bottleneck caused by variations in connection speed and bandwidth across devices. Therefore, it is essential to reduce the size of transmitted data during training. Additionally, there is a potential risk of exposing sensitive information through the model or gradient analysis during training. To address both privacy and communication efficiency, we combine differential privacy (DP) and adaptive quantization methods. We use Laplacian-based DP to preserve privacy, which is relatively underexplored in FL and offers tighter privacy guarantees than Gaussian-based DP. We propose a simple and efficient global bit-length scheduler using round-based cosine annealing, along with a client-based scheduler that dynamically adapts based on client contribution estimated through dataset entropy analysis. We evaluate our approach through extensive experiments on CIFAR10, MNIST, and medical imaging datasets, using non-IID data distributions across varying client counts, bit-length schedulers, and privacy budgets. The results show that our adaptive quantization methods reduce total communicated data by up to 52.64% for MNIST, 45.06% for CIFAR10, and 31% to 37% for medical imaging datasets compared to 32-bit float training while maintaining competitive model accuracy and ensuring robust privacy through differential privacy.

Повышение конфиденциальности и эффективности коммуникации в не-IID федеративном обучении с адаптивным квантованием и дифференциальной конфиденциальностью

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Аннотация

Support