ChatPaper.aiChatPaper

FedPS : Prétraitement des données fédérées via des statistiques agrégées

FedPS: Federated data Preprocessing via aggregated Statistics

February 11, 2026
papers.authors: Xuefeng Xu, Graham Cormode
cs.AI

papers.abstract

L'apprentissage fédéré (FL) permet à plusieurs parties d'entraîner collaborativement des modèles d'apprentissage automatique sans partager les données brutes. Cependant, avant l'entraînement, les données doivent être prétraitées pour résoudre les problèmes de valeurs manquantes, de formats incohérents et d'échelles de caractéristiques hétérogènes. Cette étape de prétraitement est cruciale pour les performances du modèle mais est largement négligée dans la recherche sur le FL. Dans les systèmes FL pratiques, les contraintes de confidentialité interdisent la centralisation des données brutes, tandis que l'efficacité de la communication introduit des défis supplémentaires pour le prétraitement distribué. Nous présentons FedPS, un cadre unifié pour le prétraitement des données fédérées basé sur des statistiques agrégées. FedPS exploite des techniques d'esquisse de données pour résumer efficacement les jeux de données locaux tout en préservant les informations statistiques essentielles. Sur la base de ces résumés, nous concevons des algorithmes fédérés pour la mise à l'échelle des caractéristiques, l'encodage, la discrétisation et l'imputation des valeurs manquantes, et étendons des modèles liés au prétraitement tels que k-Means, k-plus proches voisins et la régression linéaire bayésienne aux settings de FL horizontal et vertical. FedPS fournit des pipelines de prétraitement flexibles, efficaces en communication et cohérents pour les déploiements FL pratiques.
English
Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.
PDF12February 13, 2026