Verbeterde Privacy en Communicatie-efficiëntie in Niet-IID Federatief Leren met Adaptieve Kwantisatie en Differentiële Privacy

Samenvatting

Gefedereerd leren (FL) is een gedistribueerde machine learning-methode waarbij meerdere apparaten gezamenlijk een model trainen onder beheer van een centrale server, zonder onderliggende gegevens te delen. Een van de belangrijkste uitdagingen van FL is de communicatieflessenhals die wordt veroorzaakt door variaties in verbindingssnelheid en bandbreedte tussen apparaten. Daarom is het essentieel om de omvang van verzonden gegevens tijdens de training te verminderen. Bovendien bestaat het potentiële risico dat gevoelige informatie wordt blootgesteld via model- of gradientanalyse tijdens de training. Om zowel privacy als communicatie-efficiëntie aan te pakken, combineren we differentiële privacy (DP) en adaptieve kwantiseringsmethoden. We gebruiken op Laplace gebaseerde DP om de privacy te waarborgen, een relatief onderbelichte aanpak in FL die strengere privacygaranties biedt dan op Gaussiaanse verdeling gebaseerde DP. We stellen een eenvoudige en efficiënte globale bitlengte-planner voor op basis van cosinus-afkoeling per ronde, samen met een cliëntgebaseerde planner die zich dynamisch aanpast op basis van de geschatte cliëntbijdrage via datasetentropie-analyse. We evalueren onze aanpak met uitgebreide experimenten op CIFAR10, MNIST en medische beeldvormingsdatasets, waarbij niet-IID-gegevensverdelingen worden gebruikt met variërende aantallen cliënten, bitlengte-planners en privacybudgetten. De resultaten tonen aan dat onze adaptieve kwantiseringsmethoden het totaal gecommuniceerde gegevensvolume met respectievelijk tot 52,64% voor MNIST, 45,06% voor CIFAR10 en 31% tot 37% voor medische beeldvormingsdatasets verminderen in vergelijking met 32-bits drijvende-kommatraining, waarbij competitieve modelnauwkeurigheid wordt behouden en robuuste privacy wordt gewaarborgd door differentiële privacy.

English

Federated learning (FL) is a distributed machine learning method where multiple devices collaboratively train a model under the management of a central server without sharing underlying data. One of the key challenges of FL is the communication bottleneck caused by variations in connection speed and bandwidth across devices. Therefore, it is essential to reduce the size of transmitted data during training. Additionally, there is a potential risk of exposing sensitive information through the model or gradient analysis during training. To address both privacy and communication efficiency, we combine differential privacy (DP) and adaptive quantization methods. We use Laplacian-based DP to preserve privacy, which is relatively underexplored in FL and offers tighter privacy guarantees than Gaussian-based DP. We propose a simple and efficient global bit-length scheduler using round-based cosine annealing, along with a client-based scheduler that dynamically adapts based on client contribution estimated through dataset entropy analysis. We evaluate our approach through extensive experiments on CIFAR10, MNIST, and medical imaging datasets, using non-IID data distributions across varying client counts, bit-length schedulers, and privacy budgets. The results show that our adaptive quantization methods reduce total communicated data by up to 52.64% for MNIST, 45.06% for CIFAR10, and 31% to 37% for medical imaging datasets compared to 32-bit float training while maintaining competitive model accuracy and ensuring robust privacy through differential privacy.

Verbeterde Privacy en Communicatie-efficiëntie in Niet-IID Federatief Leren met Adaptieve Kwantisatie en Differentiële Privacy

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Samenvatting

Support