Miglioramento della Privacy ed Efficienza della Comunicazione nell'Apprendimento Federato Non-IID con Quantizzazione Adattiva e Privacy Differenziale

Abstract

L'apprendimento federato (FL) è un metodo di apprendimento automatico distribuito in cui più dispositivi addestrano collaborativamente un modello sotto la gestione di un server centrale senza condividere i dati sottostanti. Una delle principali sfide dell'FL è il collo di bottiglia comunicativo causato dalle variazioni nella velocità di connessione e nella larghezza di banda tra i dispositivi. Pertanto, è essenziale ridurre la dimensione dei dati trasmessi durante l'addestramento. Inoltre, esiste il rischio potenziale di esporre informazioni sensibili attraverso l'analisi del modello o del gradiente durante l'addestramento. Per affrontare sia la privacy che l'efficienza comunicativa, combiniamo metodi di privacy differenziale (DP) e quantizzazione adattiva. Utilizziamo la DP basata su Laplace per preservare la privacy, un approccio relativamente poco esplorato in FL che offre garanzie di privacy più stringenti rispetto alla DP basata su Gaussiana. Proponiamo un semplice ed efficiente schedulatore globale della lunghezza di bit utilizzando l'annealing coseno basato sui round, insieme a uno schedulatore lato client che si adatta dinamicamente in base al contributo del client stimato attraverso l'analisi dell'entropia del dataset. Valutiamo il nostro approccio attraverso esperimenti estesi sui dataset CIFAR10, MNIST e di imaging medico, utilizzando distribuzioni di dati non-IID con numeri variabili di client, scheduler di lunghezza di bit e budget di privacy. I risultati mostrano che i nostri metodi di quantizzazione adattiva riducono i dati comunicati totali fino al 52,64% per MNIST, al 45,06% per CIFAR10 e dal 31% al 37% per i dataset di imaging medico rispetto all'addestramento con float a 32 bit, mantenendo al contempo un'accuratezza competitiva del modello e garantendo una privacy robusta attraverso la privacy differenziale.

English

Federated learning (FL) is a distributed machine learning method where multiple devices collaboratively train a model under the management of a central server without sharing underlying data. One of the key challenges of FL is the communication bottleneck caused by variations in connection speed and bandwidth across devices. Therefore, it is essential to reduce the size of transmitted data during training. Additionally, there is a potential risk of exposing sensitive information through the model or gradient analysis during training. To address both privacy and communication efficiency, we combine differential privacy (DP) and adaptive quantization methods. We use Laplacian-based DP to preserve privacy, which is relatively underexplored in FL and offers tighter privacy guarantees than Gaussian-based DP. We propose a simple and efficient global bit-length scheduler using round-based cosine annealing, along with a client-based scheduler that dynamically adapts based on client contribution estimated through dataset entropy analysis. We evaluate our approach through extensive experiments on CIFAR10, MNIST, and medical imaging datasets, using non-IID data distributions across varying client counts, bit-length schedulers, and privacy budgets. The results show that our adaptive quantization methods reduce total communicated data by up to 52.64% for MNIST, 45.06% for CIFAR10, and 31% to 37% for medical imaging datasets compared to 32-bit float training while maintaining competitive model accuracy and ensuring robust privacy through differential privacy.

Miglioramento della Privacy ed Efficienza della Comunicazione nell'Apprendimento Federato Non-IID con Quantizzazione Adattiva e Privacy Differenziale

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Abstract

Support