Privacidad Mejorada y Eficiencia en la Comunicación para el Aprendizaje Federado No-IID mediante Cuantización Adaptativa y Privacidad Diferencial

Resumen

El aprendizaje federado (FL) es un método de aprendizaje automático distribuido en el que múltiples dispositivos entrenan colaborativamente un modelo bajo la gestión de un servidor central sin compartir los datos subyacentes. Uno de los principales desafíos del FL es el cuello de botella en la comunicación causado por las variaciones en la velocidad de conexión y el ancho de banda entre dispositivos. Por lo tanto, es esencial reducir el tamaño de los datos transmitidos durante el entrenamiento. Adicionalmente, existe un riesgo potencial de exponer información sensible mediante el análisis del modelo o de los gradientes durante el entrenamiento. Para abordar tanto la privacidad como la eficiencia en la comunicación, combinamos métodos de privacidad diferencial (DP) y de cuantificación adaptativa. Utilizamos DP basada en Laplace para preservar la privacidad, un enfoque relativamente poco explorado en FL que ofrece garantías de privacidad más estrictas que la DP basada en Gaussiana. Proponemos un planificador simple y eficiente de longitud de bits global usando atenuación coseno basada en rondas, junto con un planificador por cliente que se adapta dinámicamente basándose en la contribución del cliente estimada mediante análisis de entropía del conjunto de datos. Evaluamos nuestro enfoque mediante experimentos exhaustivos en CIFAR10, MNIST y conjuntos de datos de imágenes médicas, utilizando distribuciones de datos no-IID con diferentes cantidades de clientes, planificadores de longitud de bits y presupuestos de privacidad. Los resultados muestran que nuestros métodos de cuantificación adaptativa reducen el total de datos comunicados hasta en un 52,64% para MNIST, 45,06% para CIFAR10, y entre 31% y 37% para los conjuntos de datos de imágenes médicas en comparación con el entrenamiento con flotantes de 32 bits, manteniendo una precisión competitiva del modelo y garantizando una privacidad robusta mediante la privacidad diferencial.

English

Federated learning (FL) is a distributed machine learning method where multiple devices collaboratively train a model under the management of a central server without sharing underlying data. One of the key challenges of FL is the communication bottleneck caused by variations in connection speed and bandwidth across devices. Therefore, it is essential to reduce the size of transmitted data during training. Additionally, there is a potential risk of exposing sensitive information through the model or gradient analysis during training. To address both privacy and communication efficiency, we combine differential privacy (DP) and adaptive quantization methods. We use Laplacian-based DP to preserve privacy, which is relatively underexplored in FL and offers tighter privacy guarantees than Gaussian-based DP. We propose a simple and efficient global bit-length scheduler using round-based cosine annealing, along with a client-based scheduler that dynamically adapts based on client contribution estimated through dataset entropy analysis. We evaluate our approach through extensive experiments on CIFAR10, MNIST, and medical imaging datasets, using non-IID data distributions across varying client counts, bit-length schedulers, and privacy budgets. The results show that our adaptive quantization methods reduce total communicated data by up to 52.64% for MNIST, 45.06% for CIFAR10, and 31% to 37% for medical imaging datasets compared to 32-bit float training while maintaining competitive model accuracy and ensuring robust privacy through differential privacy.

Privacidad Mejorada y Eficiencia en la Comunicación para el Aprendizaje Federado No-IID mediante Cuantización Adaptativa y Privacidad Diferencial

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Resumen

Support