Privacidade Aprimorada e Eficiência de Comunicação em Aprendizado Federado Não-IID com Quantização Adaptativa e Privacidade Diferencial

Resumo

A aprendizagem federada (FL) é um método de aprendizagem automática distribuída no qual múltiplos dispositivos treinam colaborativamente um modelo sob a gestão de um servidor central, sem partilhar os dados subjacentes. Um dos principais desafios da FL é o estrangulamento de comunicação causado pelas variações na velocidade de ligação e na largura de banda entre os dispositivos. Por conseguinte, é essencial reduzir o tamanho dos dados transmitidos durante o treino. Adicionalmente, existe um risco potencial de exposição de informações sensíveis através da análise do modelo ou dos gradientes durante o treino. Para abordar simultaneamente a privacidade e a eficiência de comunicação, combinamos métodos de privacidade diferencial (DP) e de quantização adaptativa. Utilizamos DP baseada em Laplaciano para preservar a privacidade, uma abordagem relativamente pouco explorada em FL que oferece garantias de privacidade mais rigorosas do que a DP baseada em Gaussiano. Propomos um programador simples e eficiente de comprimento de bits global usando *annealing* cosenoidal baseado em rondas, juntamente com um programador baseado no cliente que se adapta dinamicamente com base na contribuição do cliente, estimada através de análise de entropia do conjunto de dados. Avaliamos a nossa abordagem através de experiências extensas nos conjuntos de dados CIFAR10, MNIST e de imagiologia médica, utilizando distribuições de dados não-IID com diferentes números de clientes, programadores de comprimento de bits e orçamentos de privacidade. Os resultados mostram que os nossos métodos de quantização adaptativa reduzem o total de dados comunicados em até 52,64% para o MNIST, 45,06% para o CIFAR10 e 31% a 37% para os conjuntos de dados de imagiologia médica, em comparação com o treino com *floats* de 32 bits, mantendo uma precisão do modelo competitiva e assegurando uma privacidade robusta através da privacidade diferencial.

English

Federated learning (FL) is a distributed machine learning method where multiple devices collaboratively train a model under the management of a central server without sharing underlying data. One of the key challenges of FL is the communication bottleneck caused by variations in connection speed and bandwidth across devices. Therefore, it is essential to reduce the size of transmitted data during training. Additionally, there is a potential risk of exposing sensitive information through the model or gradient analysis during training. To address both privacy and communication efficiency, we combine differential privacy (DP) and adaptive quantization methods. We use Laplacian-based DP to preserve privacy, which is relatively underexplored in FL and offers tighter privacy guarantees than Gaussian-based DP. We propose a simple and efficient global bit-length scheduler using round-based cosine annealing, along with a client-based scheduler that dynamically adapts based on client contribution estimated through dataset entropy analysis. We evaluate our approach through extensive experiments on CIFAR10, MNIST, and medical imaging datasets, using non-IID data distributions across varying client counts, bit-length schedulers, and privacy budgets. The results show that our adaptive quantization methods reduce total communicated data by up to 52.64% for MNIST, 45.06% for CIFAR10, and 31% to 37% for medical imaging datasets compared to 32-bit float training while maintaining competitive model accuracy and ensuring robust privacy through differential privacy.

Privacidade Aprimorada e Eficiência de Comunicação em Aprendizado Federado Não-IID com Quantização Adaptativa e Privacidade Diferencial

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Resumo

Support