FedPS: Preelaborazione dei Dati Federata tramite Statistiche Aggregate

Abstract

Il Federated Learning (FL) consente a più parti di addestrare modelli di machine learning in modo collaborativo senza condividere i dati grezzi. Tuttavia, prima dell'addestramento, i dati devono essere preprocessati per gestire valori mancanti, formati incoerenti e scale eterogenee delle feature. Questa fase di preprocessing è cruciale per le prestazioni del modello, ma è ampiamente trascurata nella ricerca sul FL. Nei sistemi FL pratici, i vincoli sulla privacy impediscono la centralizzazione dei dati grezzi, mentre l'efficienza delle comunicazione introduce ulteriori sfide per il preprocessing distribuito. Introduciamo FedPS, un framework unificato per il preprocessing dei dati federati basato su statistiche aggregate. FedPS sfrutta tecniche di data-sketching per riassumere efficientemente i dataset locali preservando le informazioni statistiche essenziali. Sulla base di questi riepiloghi, progettiamo algoritmi federati per il ridimensionamento delle feature, la codifica, la discretizzazione e l'imputazione dei valori mancanti, ed estendiamo modelli correlati al preprocessing come k-Means, k-Nearest Neighbors e Bayesian Linear Regression sia a impostazioni FL orizzontali che verticali. FedPS fornisce pipeline di preprocessing flessibili, efficienti nelle comunicazioni e consistenti per implementazioni FL pratiche.

English

Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.

FedPS: Preelaborazione dei Dati Federata tramite Statistiche Aggregate

FedPS: Federated data Preprocessing via aggregated Statistics

Abstract

Support