FedPS: Federatede gegevensvoorbewerking via geaggregeerde statistieken

Samenvatting

Federated Learning (FL) stelt meerdere partijen in staat om gezamenlijk machine learning-modellen te trainen zonder ruwe data te delen. Voor de training moeten gegevens echter worden voorbewerkt om ontbrekende waarden, inconsistente formaten en heterogene featureschalen aan te pakken. Deze voorbewerkingsfase is cruciaal voor de modelprestaties, maar wordt grotendeels over het hoofd gezien in FL-onderzoek. In praktische FL-systemen verhinderen privacybeperkingen de centralisatie van ruwe data, terwijl communicatie-efficiëntie bijkomende uitdagingen introduceert voor gedistribueerde voorbewerking. Wij introduceren FedPS, een uniform raamwerk voor federatieve gegevensvoorbewerking op basis van geaggregeerde statistieken. FedPS benut data-sketchingtechnieken om lokale datasets efficiënt samen te vatten, waarbij essentiële statistische informatie behouden blijft. Op basis van deze samenvattingen ontwerpen we federatieve algoritmen voor featureschaling, codering, discretisatie en imputatie van ontbrekende waarden, en breiden we voorbewerkingsgerelateerde modellen zoals k-Means, k-Nearest Neighbors en Bayesiaanse Lineaire Regressie uit naar zowel horizontale als verticale FL-instellingen. FedPS biedt flexibele, communicatie-efficiënte en consistente voorbewerkingspijplijnen voor praktische FL-implementaties.

English

Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.

FedPS: Federatede gegevensvoorbewerking via geaggregeerde statistieken

FedPS: Federated data Preprocessing via aggregated Statistics

Samenvatting

Support