Verbesserte Privatsphäre und Kommunikationseffizienz in nicht unabhängig und identisch verteiltem Federated Learning durch adaptive Quantisierung und Differential Privacy

Zusammenfassung

Federated Learning (FL) ist eine verteilte Methode des maschinellen Lernens, bei der mehrere Geräte unter der Koordination eines zentralen Servers gemeinsam ein Modell trainieren, ohne die zugrundeliegenden Daten auszutauschen. Eine der größten Herausforderungen in FL ist das Kommunikationsproblem, das durch Unterschiede in Verbindungsgeschwindigkeit und Bandbreite zwischen den Geräten entsteht. Daher ist es entscheidend, die Größe der übertragenen Daten während des Trainings zu reduzieren. Zudem besteht das potenzielle Risiko, dass sensible Informationen durch das Modell oder eine Gradientenanalyse während des Trainings preisgegeben werden. Um sowohl Privatsphäre als auch Kommunikationseffizienz zu gewährleisten, kombinieren wir Methoden der differentiellen Privatsphäre (DP) und adaptive Quantisierungsverfahren. Wir verwenden Laplace-basierte DP zum Schutz der Privatsphäre, die in FL bisher weniger erforscht ist und strengere Privatsphäre-Garantien als Gaussian-basierte DP bietet. Wir schlagen einen einfachen und effizienten globalen Bitlängen-Scheduler auf Basis einer rundenbasierten Cosinus-Annealing-Methode vor, ergänzt durch einen clientbasierten Scheduler, der dynamisch anhand des Client-Beitrags angepasst wird, der mittels Entropieanalyse der Datensätze geschätzt wird. Wir evaluieren unseren Ansatz in umfangreichen Experimenten mit CIFAR10, MNIST und medizinischen Bilddatensätzen unter Verwendung von nicht unabhängig und identisch verteilten (non-IID) Daten bei variierenden Client-Zahlen, Bitlängen-Schedulern und Privatsphäre-Budgets. Die Ergebnisse zeigen, dass unsere adaptiven Quantisierungsmethoden die insgesamt übertragene Datenmenge im Vergleich zum Training mit 32-Bit-Fließkommazahlen um bis zu 52,64 % für MNIST, 45,06 % für CIFAR10 und 31 % bis 37 % für medizinische Bilddaten reduzieren, bei gleichzeitig wettbewerbsfähiger Modellgenauigkeit und robustem Privatsphärenschutz durch differentielle Privatsphäre.

English

Federated learning (FL) is a distributed machine learning method where multiple devices collaboratively train a model under the management of a central server without sharing underlying data. One of the key challenges of FL is the communication bottleneck caused by variations in connection speed and bandwidth across devices. Therefore, it is essential to reduce the size of transmitted data during training. Additionally, there is a potential risk of exposing sensitive information through the model or gradient analysis during training. To address both privacy and communication efficiency, we combine differential privacy (DP) and adaptive quantization methods. We use Laplacian-based DP to preserve privacy, which is relatively underexplored in FL and offers tighter privacy guarantees than Gaussian-based DP. We propose a simple and efficient global bit-length scheduler using round-based cosine annealing, along with a client-based scheduler that dynamically adapts based on client contribution estimated through dataset entropy analysis. We evaluate our approach through extensive experiments on CIFAR10, MNIST, and medical imaging datasets, using non-IID data distributions across varying client counts, bit-length schedulers, and privacy budgets. The results show that our adaptive quantization methods reduce total communicated data by up to 52.64% for MNIST, 45.06% for CIFAR10, and 31% to 37% for medical imaging datasets compared to 32-bit float training while maintaining competitive model accuracy and ensuring robust privacy through differential privacy.

Verbesserte Privatsphäre und Kommunikationseffizienz in nicht unabhängig und identisch verteiltem Federated Learning durch adaptive Quantisierung und Differential Privacy

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Zusammenfassung

Support