Gedistribueerde berekening van ROC- en PR-curven
Federated Computation of ROC and PR Curves
October 6, 2025
Auteurs: Xuefeng Xu, Graham Cormode
cs.AI
Samenvatting
Receiver Operating Characteristic (ROC) en Precision-Recall (PR) curves zijn fundamentele hulpmiddelen voor het evalueren van machine learning-classificatiemodellen, die gedetailleerde inzichten bieden in de afwegingen tussen de true positive rate versus de false positive rate (ROC) of precisie versus recall (PR). In Federated Learning (FL)-scenario's, waar gegevens verdeeld zijn over meerdere clients, is het berekenen van deze curves echter uitdagend vanwege privacy- en communicatiebeperkingen. Specifiek heeft de server geen toegang tot de ruwe voorspellingsscores en klasse-labels, die worden gebruikt om de ROC- en PR-curves te berekenen in een gecentraliseerde omgeving. In dit artikel stellen we een nieuwe methode voor om ROC- en PR-curves te benaderen in een federatieve omgeving door kwantielen van de voorspellingsscoreverdeling te schatten onder gedistribueerde differentiële privacy. We bieden theoretische grenzen voor de Area Error (AE) tussen de werkelijke en geschatte curves, waarbij we de afwegingen tussen benaderingsnauwkeurigheid, privacy en communicatiekosten demonstreren. Empirische resultaten op real-world datasets tonen aan dat onze methode een hoge benaderingsnauwkeurigheid bereikt met minimale communicatie en sterke privacygaranties, waardoor het praktisch is voor privacybewaard model-evaluatie in federatieve systemen.
English
Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves are
fundamental tools for evaluating machine learning classifiers, offering
detailed insights into the trade-offs between true positive rate vs. false
positive rate (ROC) or precision vs. recall (PR). However, in Federated
Learning (FL) scenarios, where data is distributed across multiple clients,
computing these curves is challenging due to privacy and communication
constraints. Specifically, the server cannot access raw prediction scores and
class labels, which are used to compute the ROC and PR curves in a centralized
setting. In this paper, we propose a novel method for approximating ROC and PR
curves in a federated setting by estimating quantiles of the prediction score
distribution under distributed differential privacy. We provide theoretical
bounds on the Area Error (AE) between the true and estimated curves,
demonstrating the trade-offs between approximation accuracy, privacy, and
communication cost. Empirical results on real-world datasets demonstrate that
our method achieves high approximation accuracy with minimal communication and
strong privacy guarantees, making it practical for privacy-preserving model
evaluation in federated systems.