Calcul fédéré des courbes ROC et PR
Federated Computation of ROC and PR Curves
October 6, 2025
papers.authors: Xuefeng Xu, Graham Cormode
cs.AI
papers.abstract
Les courbes ROC (Receiver Operating Characteristic) et PR (Precision-Recall) sont des outils fondamentaux pour évaluer les classificateurs en apprentissage automatique, offrant des informations détaillées sur les compromis entre le taux de vrais positifs et le taux de faux positifs (ROC) ou entre la précision et le rappel (PR). Cependant, dans les scénarios d'apprentissage fédéré (Federated Learning, FL), où les données sont distribuées sur plusieurs clients, le calcul de ces courbes est complexe en raison des contraintes de confidentialité et de communication. Plus précisément, le serveur ne peut pas accéder aux scores de prédiction bruts et aux étiquettes de classe, qui sont utilisés pour calculer les courbes ROC et PR dans un cadre centralisé. Dans cet article, nous proposons une nouvelle méthode pour approximer les courbes ROC et PR dans un contexte fédéré en estimant les quantiles de la distribution des scores de prédiction sous le cadre de la confidentialité différentielle distribuée. Nous fournissons des bornes théoriques sur l'erreur d'aire (Area Error, AE) entre les courbes réelles et estimées, mettant en évidence les compromis entre la précision de l'approximation, la confidentialité et le coût de communication. Les résultats empiriques sur des jeux de données réels montrent que notre méthode atteint une grande précision d'approximation avec une communication minimale et des garanties de confidentialité solides, la rendant pratique pour l'évaluation de modèles préservant la confidentialité dans les systèmes fédérés.
English
Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves are
fundamental tools for evaluating machine learning classifiers, offering
detailed insights into the trade-offs between true positive rate vs. false
positive rate (ROC) or precision vs. recall (PR). However, in Federated
Learning (FL) scenarios, where data is distributed across multiple clients,
computing these curves is challenging due to privacy and communication
constraints. Specifically, the server cannot access raw prediction scores and
class labels, which are used to compute the ROC and PR curves in a centralized
setting. In this paper, we propose a novel method for approximating ROC and PR
curves in a federated setting by estimating quantiles of the prediction score
distribution under distributed differential privacy. We provide theoretical
bounds on the Area Error (AE) between the true and estimated curves,
demonstrating the trade-offs between approximation accuracy, privacy, and
communication cost. Empirical results on real-world datasets demonstrate that
our method achieves high approximation accuracy with minimal communication and
strong privacy guarantees, making it practical for privacy-preserving model
evaluation in federated systems.