Steekproefselectie met behulp van multitaak-autoencoders in federatief leren met niet-onafhankelijk en niet-identiek verdeelde gegevens

Samenvatting

Federated learning is een machine learning-paradigma waarbij meerdere apparaten gezamenlijk een model trainen onder toezicht van een centrale server, met behoud van gegevensprivacy. De prestaties worden echter vaak belemmerd door redundante, kwaadaardige of afwijkende samples, wat leidt tot modeldegradatie en inefficiëntie. Om deze problemen te overwinnen, stellen we nieuwe sample-selectiemethoden voor beeldclassificatie voor, waarbij een multi-task autoencoder wordt ingezet om sample-bijdragen te schatten via verlies- en kenmerkanalyse. Onze aanpak integreert unsupervised outlierdetectie, gebruikmakend van one-class support vector machine (OCSVM), isolation forest (IF) en adaptive loss threshold (AT) methoden, beheerd door een centrale server om ruis samples op clients te filteren. We introduceren tevens een multi-class deep support vector data description (SVDD) verlies, aangestuurd door een centrale server, om kenmerkgebaseerde sample-selectie te verbeteren. We valideren onze methoden op CIFAR10- en MNIST-datasets met variërende aantallen clients, niet-IID verdelingen en ruisniveaus tot 40%. De resultaten tonen significante nauwkeurigheidsverbeteringen met verliesgebaseerde sample-selectie, met winsten tot 7,02% op CIFAR10 met OCSVM en 1,83% op MNIST met AT. Bovendien verbetert onze federated SVDD-verliesfunctie de kenmerkgebaseerde sample-selectie verder, wat een nauwkeurigheidswinst tot 0,99% oplevert op CIFAR10 met OCSVM. Deze resultaten tonen de effectiviteit van onze methoden voor het verbeteren van modelnauwkeurigheid onder diverse clientaantallen en ruisomstandigheden.

English

Federated learning is a machine learning paradigm in which multiple devices collaboratively train a model under the supervision of a central server while ensuring data privacy. However, its performance is often hindered by redundant, malicious, or abnormal samples, leading to model degradation and inefficiency. To overcome these issues, we propose novel sample selection methods for image classification, employing a multitask autoencoder to estimate sample contributions through loss and feature analysis. Our approach incorporates unsupervised outlier detection, using one-class support vector machine (OCSVM), isolation forest (IF), and adaptive loss threshold (AT) methods managed by a central server to filter noisy samples on clients. We also propose a multi-class deep support vector data description (SVDD) loss controlled by a central server to enhance feature-based sample selection. We validate our methods on CIFAR10 and MNIST datasets across varying numbers of clients, non-IID distributions, and noise levels up to 40%. The results show significant accuracy improvements with loss-based sample selection, achieving gains of up to 7.02% on CIFAR10 with OCSVM and 1.83% on MNIST with AT. Additionally, our federated SVDD loss further improves feature-based sample selection, yielding accuracy gains of up to 0.99% on CIFAR10 with OCSVM. These results show the effectiveness of our methods in improving model accuracy across various client counts and noise conditions.

Steekproefselectie met behulp van multitaak-autoencoders in federatief leren met niet-onafhankelijk en niet-identiek verdeelde gegevens

Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Samenvatting

Support