Seleção de Amostras Usando Autoencoders Multitarefa em Aprendizado Federado com Dados Não-IID

Resumo

A aprendizagem federada é um paradigma de aprendizado de máquina no qual múltiplos dispositivos treinam colaborativamente um modelo sob a supervisão de um servidor central, garantindo a privacidade dos dados. No entanto, seu desempenho é frequentemente prejudicado por amostras redundantes, maliciosas ou anômalas, levando à degradação e ineficiência do modelo. Para superar esses problemas, propomos novos métodos de seleção de amostras para classificação de imagens, empregando um autoencoder multitarefa para estimar as contribuições das amostras por meio da análise de perda e de características. Nossa abordagem incorpora detecção não supervisionada de *outliers*, utilizando métodos de máquina de vetores de suporte de uma classe (OCSVM), floresta de isolamento (IF) e limiar de perda adaptativo (AT) gerenciados por um servidor central para filtrar amostras ruidosas nos clientes. Também propomos uma função de perda multiclasse baseada em descrição de dados de vetores de suporte (SVDD) profunda controlada por um servidor central para aprimorar a seleção de amostras baseada em características. Validamos nossos métodos nos conjuntos de dados CIFAR10 e MNIST, variando o número de clientes, distribuições não-IID e níveis de ruído de até 40%. Os resultados mostram melhorias significativas de precisão com a seleção de amostras baseada em perda, alcançando ganhos de até 7,02% no CIFAR10 com OCSVM e 1,83% no MNIST com AT. Adicionalmente, nossa função de perda SVDD federada aprimora ainda mais a seleção de amostras baseada em características, resultando em ganhos de precisão de até 0,99% no CIFAR10 com OCSVM. Esses resultados demonstram a eficácia de nossos métodos em melhorar a precisão do modelo em diversas quantidades de clientes e condições de ruído.

English

Federated learning is a machine learning paradigm in which multiple devices collaboratively train a model under the supervision of a central server while ensuring data privacy. However, its performance is often hindered by redundant, malicious, or abnormal samples, leading to model degradation and inefficiency. To overcome these issues, we propose novel sample selection methods for image classification, employing a multitask autoencoder to estimate sample contributions through loss and feature analysis. Our approach incorporates unsupervised outlier detection, using one-class support vector machine (OCSVM), isolation forest (IF), and adaptive loss threshold (AT) methods managed by a central server to filter noisy samples on clients. We also propose a multi-class deep support vector data description (SVDD) loss controlled by a central server to enhance feature-based sample selection. We validate our methods on CIFAR10 and MNIST datasets across varying numbers of clients, non-IID distributions, and noise levels up to 40%. The results show significant accuracy improvements with loss-based sample selection, achieving gains of up to 7.02% on CIFAR10 with OCSVM and 1.83% on MNIST with AT. Additionally, our federated SVDD loss further improves feature-based sample selection, yielding accuracy gains of up to 0.99% on CIFAR10 with OCSVM. These results show the effectiveness of our methods in improving model accuracy across various client counts and noise conditions.

Seleção de Amostras Usando Autoencoders Multitarefa em Aprendizado Federado com Dados Não-IID

Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Resumo

Support