ChatPaper.aiChatPaper

FedPS: Föderierte Datenvorverarbeitung mittels aggregierter Statistiken

FedPS: Federated data Preprocessing via aggregated Statistics

February 11, 2026
papers.authors: Xuefeng Xu, Graham Cormode
cs.AI

papers.abstract

Federated Learning (FL) ermöglicht es mehreren Parteien, gemeinsam maschinelle Lernmodelle zu trainieren, ohne Rohdaten auszutauschen. Vor dem Training müssen die Daten jedoch vorverarbeitet werden, um fehlende Werte, inkonsistente Formate und heterogene MerkmalsSkalen zu behandeln. Diese Vorverarbeitungsphase ist entscheidend für die Modellleistung, wird in der FL-Forschung jedoch weitgehend vernachlässigt. In praktischen FL-Systemen verbieten Datenschutzbeschränkungen die Zentralisierung von Rohdaten, während Kommunikationseffizienz weitere Herausforderungen für die verteilte Vorverarbeitung mit sich bringt. Wir stellen FedPS vor, einen einheitlichen Rahmen für die föderierte Datenvorverarbeitung auf Basis aggregierter Statistiken. FedPS nutzt Data-Sketching-Techniken, um lokale Datensätze effizient zusammenzufassen und gleichzeitig essentielle statistische Informationen zu bewahren. Aufbauend auf diesen Zusammenfassungen entwerfen wir föderierte Algorithmen für MerkmalsSkalierung, Kodierung, Diskretisierung und die Imputation fehlender Werte und erweitern vorverarbeitungsrelevante Modelle wie k-Means, k-Nearest-Neighbors und Bayesianische Lineare Regression für horizontale und vertikale FL-Szenarien. FedPS bietet flexible, kommunikationseffiziente und konsistente Vorverarbeitungspipelines für den praktischen FL-Einsatz.
English
Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.
PDF12February 13, 2026