FedPS: Pré-processamento de Dados Federado via Estatísticas Agregadas

Resumo

O Aprendizado Federado (FL) permite que múltiplas partes treinem modelos de aprendizado de máquina de forma colaborativa sem compartilhar dados brutos. No entanto, antes do treinamento, os dados devem ser pré-processados para lidar com valores ausentes, formatos inconsistentes e escalas de características heterogêneas. Esta etapa de pré-processamento é crítica para o desempenho do modelo, mas é largamente negligenciada na pesquisa em FL. Em sistemas práticos de FL, as restrições de privacidade impedem a centralização de dados brutos, enquanto a eficiência de comunicação introduz desafios adicionais para o pré-processamento distribuído. Apresentamos o FedPS, uma estrutura unificada para pré-processamento de dados federado baseada em estatísticas agregadas. O FedPS aproveita técnicas de esboço de dados para resumir eficientemente conjuntos de dados locais, preservando informações estatísticas essenciais. Com base nestes resumos, projetamos algoritmos federados para escalonamento de características, codificação, discretização e imputação de valores ausentes, e estendemos modelos relacionados ao pré-processamento, como k-Means, k-Vizinhos Mais Próximos e Regressão Linear Bayesiana, para configurações de FL horizontais e verticais. O FedPS fornece pipelines de pré-processamento flexíveis, eficientes em comunicação e consistentes para implantações práticas de FL.

English

Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.