Föderierte Berechnung von ROC- und PR-Kurven
Federated Computation of ROC and PR Curves
October 6, 2025
papers.authors: Xuefeng Xu, Graham Cormode
cs.AI
papers.abstract
Receiver Operating Characteristic (ROC)- und Precision-Recall (PR)-Kurven sind grundlegende Werkzeuge zur Bewertung von maschinellen Lernklassifikatoren, die detaillierte Einblicke in die Kompromisse zwischen der True-Positive-Rate und der False-Positive-Rate (ROC) bzw. zwischen Präzision und Recall (PR) bieten. In Szenarien des Federated Learning (FL), bei denen Daten über mehrere Clients verteilt sind, ist die Berechnung dieser Kurven jedoch aufgrund von Datenschutz- und Kommunikationsbeschränkungen eine Herausforderung. Insbesondere kann der Server nicht auf die Rohvorhersagewerte und Klassenlabels zugreifen, die in einer zentralisierten Umgebung zur Berechnung der ROC- und PR-Kurven verwendet werden. In diesem Artikel schlagen wir eine neuartige Methode zur Approximation von ROC- und PR-Kurven in einer föderierten Umgebung vor, indem Quantile der Verteilung der Vorhersagewerte unter verteilter Differential Privacy geschätzt werden. Wir liefern theoretische Grenzen für den Area Error (AE) zwischen den tatsächlichen und den geschätzten Kurven, die die Kompromisse zwischen Approximationsgenauigkeit, Datenschutz und Kommunikationskosten aufzeigen. Empirische Ergebnisse auf realen Datensätzen zeigen, dass unsere Methode eine hohe Approximationsgenauigkeit mit minimaler Kommunikation und starken Datenschutzgarantien erreicht, was sie für die datenschutzbewahrende Modellbewertung in föderierten Systemen praktikabel macht.
English
Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves are
fundamental tools for evaluating machine learning classifiers, offering
detailed insights into the trade-offs between true positive rate vs. false
positive rate (ROC) or precision vs. recall (PR). However, in Federated
Learning (FL) scenarios, where data is distributed across multiple clients,
computing these curves is challenging due to privacy and communication
constraints. Specifically, the server cannot access raw prediction scores and
class labels, which are used to compute the ROC and PR curves in a centralized
setting. In this paper, we propose a novel method for approximating ROC and PR
curves in a federated setting by estimating quantiles of the prediction score
distribution under distributed differential privacy. We provide theoretical
bounds on the Area Error (AE) between the true and estimated curves,
demonstrating the trade-offs between approximation accuracy, privacy, and
communication cost. Empirical results on real-world datasets demonstrate that
our method achieves high approximation accuracy with minimal communication and
strong privacy guarantees, making it practical for privacy-preserving model
evaluation in federated systems.