Amélioration de la confidentialité et de l'efficacité de la communication dans l'apprentissage fédéré non-IID par quantification adaptative et confidentialité différentielle

Résumé

L'apprentissage fédéré (FL) est une méthode d'apprentissage automatique distribuée dans laquelle plusieurs appareils entraînent collaborativement un modèle sous la gestion d'un serveur central sans partager les données sous-jacentes. L'un des principaux défis du FL est la goulotte d'étranglement de communication causée par les variations de vitesse de connexion et de bande passante entre les appareils. Par conséquent, il est essentiel de réduire la taille des données transmises pendant l'entraînement. De plus, il existe un risque potentiel d'exposer des informations sensibles via l'analyse du modèle ou des gradients pendant l'entraînement. Pour répondre à la fois aux impératifs de confidentialité et d'efficacité de la communication, nous combinons des méthodes de confidentialité différentielle (DP) et de quantification adaptive. Nous utilisons la DP basée sur Laplace pour préserver la confidentialité, approche relativement peu explorée en FL et qui offre des garanties de confidentialité plus strictes que la DP basée sur Gaussienne. Nous proposons un planificateur simple et efficace de longueur de bits globale utilisant un recuit cosinus basé sur les rounds, ainsi qu'un planificateur côté client qui s'adapte dynamiquement en fonction de la contribution du client estimée via une analyse de l'entropie du jeu de données. Nous évaluons notre approche par des expériences approfondies sur les jeux de données CIFAR10, MNIST et d'imagerie médicale, en utilisant des distributions de données non-IID pour différents nombres de clients, planificateurs de longueur de bits et budgets de confidentialité. Les résultats montrent que nos méthodes de quantification adaptive réduisent le volume total de données communiquées jusqu'à 52,64% pour MNIST, 45,06% pour CIFAR10 et de 31% à 37% pour les jeux de données d'imagerie médicale par rapport à un entraînement en flottant 32 bits, tout en maintenant une précision du modèle compétitive et en garantissant une confidentialité robuste grâce à la confidentialité différentielle.

English

Federated learning (FL) is a distributed machine learning method where multiple devices collaboratively train a model under the management of a central server without sharing underlying data. One of the key challenges of FL is the communication bottleneck caused by variations in connection speed and bandwidth across devices. Therefore, it is essential to reduce the size of transmitted data during training. Additionally, there is a potential risk of exposing sensitive information through the model or gradient analysis during training. To address both privacy and communication efficiency, we combine differential privacy (DP) and adaptive quantization methods. We use Laplacian-based DP to preserve privacy, which is relatively underexplored in FL and offers tighter privacy guarantees than Gaussian-based DP. We propose a simple and efficient global bit-length scheduler using round-based cosine annealing, along with a client-based scheduler that dynamically adapts based on client contribution estimated through dataset entropy analysis. We evaluate our approach through extensive experiments on CIFAR10, MNIST, and medical imaging datasets, using non-IID data distributions across varying client counts, bit-length schedulers, and privacy budgets. The results show that our adaptive quantization methods reduce total communicated data by up to 52.64% for MNIST, 45.06% for CIFAR10, and 31% to 37% for medical imaging datasets compared to 32-bit float training while maintaining competitive model accuracy and ensuring robust privacy through differential privacy.

Amélioration de la confidentialité et de l'efficacité de la communication dans l'apprentissage fédéré non-IID par quantification adaptative et confidentialité différentielle

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Résumé

Support