Föderierte Berechnung von ROC- und PR-Kurven

papers.abstract

Receiver Operating Characteristic (ROC)- und Precision-Recall (PR)-Kurven sind grundlegende Werkzeuge zur Bewertung von maschinellen Lernklassifikatoren, die detaillierte Einblicke in die Kompromisse zwischen der True-Positive-Rate und der False-Positive-Rate (ROC) bzw. zwischen Präzision und Recall (PR) bieten. In Szenarien des Federated Learning (FL), bei denen Daten über mehrere Clients verteilt sind, ist die Berechnung dieser Kurven jedoch aufgrund von Datenschutz- und Kommunikationsbeschränkungen eine Herausforderung. Insbesondere kann der Server nicht auf die Rohvorhersagewerte und Klassenlabels zugreifen, die in einer zentralisierten Umgebung zur Berechnung der ROC- und PR-Kurven verwendet werden. In diesem Artikel schlagen wir eine neuartige Methode zur Approximation von ROC- und PR-Kurven in einer föderierten Umgebung vor, indem Quantile der Verteilung der Vorhersagewerte unter verteilter Differential Privacy geschätzt werden. Wir liefern theoretische Grenzen für den Area Error (AE) zwischen den tatsächlichen und den geschätzten Kurven, die die Kompromisse zwischen Approximationsgenauigkeit, Datenschutz und Kommunikationskosten aufzeigen. Empirische Ergebnisse auf realen Datensätzen zeigen, dass unsere Methode eine hohe Approximationsgenauigkeit mit minimaler Kommunikation und starken Datenschutzgarantien erreicht, was sie für die datenschutzbewahrende Modellbewertung in föderierten Systemen praktikabel macht.

English

Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves are fundamental tools for evaluating machine learning classifiers, offering detailed insights into the trade-offs between true positive rate vs. false positive rate (ROC) or precision vs. recall (PR). However, in Federated Learning (FL) scenarios, where data is distributed across multiple clients, computing these curves is challenging due to privacy and communication constraints. Specifically, the server cannot access raw prediction scores and class labels, which are used to compute the ROC and PR curves in a centralized setting. In this paper, we propose a novel method for approximating ROC and PR curves in a federated setting by estimating quantiles of the prediction score distribution under distributed differential privacy. We provide theoretical bounds on the Area Error (AE) between the true and estimated curves, demonstrating the trade-offs between approximation accuracy, privacy, and communication cost. Empirical results on real-world datasets demonstrate that our method achieves high approximation accuracy with minimal communication and strong privacy guarantees, making it practical for privacy-preserving model evaluation in federated systems.

Föderierte Berechnung von ROC- und PR-Kurven

Federated Computation of ROC and PR Curves

papers.abstract

Support