ChatPaper.aiChatPaper

FedPS: Федерализованная предобработка данных с помощью агрегированной статистики

FedPS: Federated data Preprocessing via aggregated Statistics

February 11, 2026
Авторы: Xuefeng Xu, Graham Cormode
cs.AI

Аннотация

Федеративное обучение (FL) позволяет нескольким сторонам совместно обучать модели машинного обучения без обмена исходными данными. Однако перед обучением данные должны быть предобработаны для устранения пропущенных значений, несовместимых форматов и неоднородных масштабов признаков. Этот этап предобработки критически важен для производительности модели, но в исследованиях FL он остается в значительной степени без внимания. В практических системах FL ограничения конфиденциальности запрещают централизацию исходных данных, в то время как требования к эффективности связи создают дополнительные проблемы для распределенной предобработки. Мы представляем FedPS — унифицированную структуру для федеративной предобработки данных на основе агрегированной статистики. FedPS использует методы сжатия данных для эффективного суммирования локальных наборов данных с сохранением essential статистической информации. На основе этих сводок мы разрабатываем федеративные алгоритмы для масштабирования признаков, кодирования, дискретизации и импутации пропущенных значений, а также расширяем связанные с предобработкой модели, такие как k-средние, k-ближайших соседей и байесовская линейная регрессия, для горизонтальных и вертикальных настроек FL. FedPS обеспечивает гибкие, эффективные по связи и согласованные конвейеры предобработки для практического развертывания FL.
English
Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.
PDF12February 13, 2026