FedPS: Preprocesamiento de Datos Federado mediante Estadísticas Agregadas
FedPS: Federated data Preprocessing via aggregated Statistics
February 11, 2026
Autores: Xuefeng Xu, Graham Cormode
cs.AI
Resumen
El Aprendizaje Federado (AF) permite que múltiples partes entrenen modelos de aprendizaje automático de forma colaborativa sin compartir datos brutos. Sin embargo, antes del entrenamiento, los datos deben preprocesarse para abordar valores faltantes, formatos inconsistentes y escalas heterogéneas de características. Esta etapa de preprocesamiento es crítica para el rendimiento del modelo, pero está ampliamente ignorada en la investigación sobre AF. En los sistemas prácticos de AF, las restricciones de privacidad prohíben la centralización de datos brutos, mientras que la eficiencia en las comunicaciones introduce desafíos adicionales para el preprocesamiento distribuido. Presentamos FedPS, un marco unificado para el preprocesamiento federado de datos basado en estadísticas agregadas. FedPS aprovecha técnicas de resumen de datos para resumir eficientemente los conjuntos de datos locales preservando la información estadística esencial. Sobre la base de estos resúmenes, diseñamos algoritmos federados para escalado de características, codificación, discretización e imputación de valores faltantes, y extendemos modelos relacionados con el preprocesamiento, como k-Medias, k-Vecinos Más Cercanos y Regresión Lineal Bayesiana, a entornos de AF tanto horizontales como verticales. FedPS proporciona canalizaciones de preprocesamiento flexibles, eficientes en comunicación y consistentes para implementaciones prácticas de AF.
English
Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.