Sélection d'Échantillons par Autoencodeurs Multi-Tâches dans l'Apprentissage Fédéré avec des Données Non-IID

Résumé

L'apprentissage fédéré est un paradigme d'apprentissage automatique dans lequel plusieurs appareils entraînent collaborativement un modèle sous la supervision d'un serveur central tout en préservant la confidentialité des données. Cependant, ses performances sont souvent entravées par des échantillons redondants, malveillants ou anormaux, entraînant une dégradation et une inefficacité du modèle. Pour surmonter ces problèmes, nous proposons de nouvelles méthodes de sélection d'échantillons pour la classification d'images, utilisant un autoencodeur multitâche pour estimer les contributions des échantillons via l'analyse des pertes et des caractéristiques. Notre approche intègre une détection non supervisée des valeurs aberrantes, utilisant des méthodes de machine à vecteurs de support à une classe (OCSVM), de forêt d'isolation (IF) et de seuillage adaptatif des pertes (AT) gérées par un serveur central pour filtrer les échantillons bruités sur les clients. Nous proposons également une fonction de perte multi-classes basée sur la description profonde des données par les vecteurs de support (SVDD), contrôlée par un serveur central, pour améliorer la sélection d'échantillons basée sur les caractéristiques. Nous validons nos méthodes sur les jeux de données CIFAR10 et MNIST avec différents nombres de clients, des distributions non-IID et des niveaux de bruit allant jusqu'à 40%. Les résultats montrent des améliorations significatives de la précision avec la sélection d'échantillons basée sur les pertes, atteignant des gains allant jusqu'à 7,02% sur CIFAR10 avec OCSVM et 1,83% sur MNIST avec AT. De plus, notre fonction de perte SVDD fédérée améliore davantage la sélection d'échantillons basée sur les caractéristiques, produisant des gains de précision allant jusqu'à 0,99% sur CIFAR10 avec OCSVM. Ces résultats démontrent l'efficacité de nos méthodes pour améliorer la précision des modèles dans diverses conditions de nombre de clients et de bruit.

English

Federated learning is a machine learning paradigm in which multiple devices collaboratively train a model under the supervision of a central server while ensuring data privacy. However, its performance is often hindered by redundant, malicious, or abnormal samples, leading to model degradation and inefficiency. To overcome these issues, we propose novel sample selection methods for image classification, employing a multitask autoencoder to estimate sample contributions through loss and feature analysis. Our approach incorporates unsupervised outlier detection, using one-class support vector machine (OCSVM), isolation forest (IF), and adaptive loss threshold (AT) methods managed by a central server to filter noisy samples on clients. We also propose a multi-class deep support vector data description (SVDD) loss controlled by a central server to enhance feature-based sample selection. We validate our methods on CIFAR10 and MNIST datasets across varying numbers of clients, non-IID distributions, and noise levels up to 40%. The results show significant accuracy improvements with loss-based sample selection, achieving gains of up to 7.02% on CIFAR10 with OCSVM and 1.83% on MNIST with AT. Additionally, our federated SVDD loss further improves feature-based sample selection, yielding accuracy gains of up to 0.99% on CIFAR10 with OCSVM. These results show the effectiveness of our methods in improving model accuracy across various client counts and noise conditions.

Sélection d'Échantillons par Autoencodeurs Multi-Tâches dans l'Apprentissage Fédéré avec des Données Non-IID

Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Résumé

Support