FedPS: 集約統計量によるフェデレーテッドデータ前処理
FedPS: Federated data Preprocessing via aggregated Statistics
February 11, 2026
著者: Xuefeng Xu, Graham Cormode
cs.AI
要旨
フェデレーテッドラーニング(FL)は、複数の参加者が生データを共有することなく協調的に機械学習モデルを訓練することを可能にする。しかし、訓練の前段階では、欠損値、不統一な形式、異種混合の特徴量スケールに対処するため、データの前処理が必須である。この前処理段階はモデル性能に決定的に重要であるにもかかわらず、FL研究ではほとんど注目されてこなかった。実用的なFLシステムでは、プライバシー制約により生データの集中化が禁止され、通信効率の要件が分散型前処理にさらなる課題をもたらす。本論文では、集計統計量に基づく統合的フレームワークFedPSを提案する。FedPSはデータスケッチ技術を活用し、本質的な統計情報を保持しながらローカルデータセットを効率的に要約する。これらの要約情報に基づき、特徴量のスケーリング、エンコーディング、離散化、欠損値補完のためのフェデレーテッドアルゴリズムを設計し、k-Means、k-近傍法、ベイズ線形回帰といった前処理関連モデルを水平および垂直FL設定に拡張する。FedPSは、実用的なFL展開のための柔軟で通信効率が高く、一貫性のある前処理パイプラインを提供する。
English
Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.