FedPS: 집계 통계를 통한 연합 데이터 전처리
FedPS: Federated data Preprocessing via aggregated Statistics
February 11, 2026
저자: Xuefeng Xu, Graham Cormode
cs.AI
초록
연합 학습(Federated Learning, FL)은 여러 참여자가 원본 데이터를 공유하지 않고도 협력적으로 머신러닝 모델을 훈련할 수 있게 합니다. 그러나 훈련 전에 결측값, 일관성 없는 형식, 이질적 특성 스케일 등을 해결하기 위해 데이터 전처리가 반드시 수행되어야 합니다. 이러한 전처리 단계는 모델 성능에 매우 중요하지만, FL 연구에서는 대부분 간과되고 있습니다. 실제 FL 시스템에서는 개인정보 보호 제약으로 인해 원본 데이터의 중앙 집중화가 금지되며, 통신 효율성 요구로 인해 분산 전처리에 추가적인 어려움이 발생합니다. 본 논문에서는 집계 통계를 기반으로 한 연합 데이터 전처리 통합 프레임워크인 FedPS를 소개합니다. FedPS는 데이터 스케치 기법을 활용하여 지역 데이터셋을 효율적으로 요약하면서 핵심 통계 정보를 보존합니다. 이러한 요약 정보를 바탕으로 특성 스케일링, 인코딩, 이산화, 결측값 대체를 위한 연합 알고리즘을 설계하고, k-평균, k-최근접 이웃, 베이지안 선형 회귀와 같은 전처리 관련 모델을 수직 및 수평 FL 설정으로 확장합니다. FedPS는 실제 FL 배포를 위해 유연하고 통신 효율적이며 일관된 전처리 파이프라인을 제공합니다.
English
Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.