ChatPaper.aiChatPaper

Calcolo Federato delle Curve ROC e PR

Federated Computation of ROC and PR Curves

October 6, 2025
Autori: Xuefeng Xu, Graham Cormode
cs.AI

Abstract

Le curve Receiver Operating Characteristic (ROC) e Precision-Recall (PR) sono strumenti fondamentali per valutare i classificatori di machine learning, offrendo approfondimenti dettagliati sui compromessi tra il tasso di veri positivi e il tasso di falsi positivi (ROC) o tra precisione e richiamo (PR). Tuttavia, negli scenari di Federated Learning (FL), dove i dati sono distribuiti su più clienti, il calcolo di queste curve è complesso a causa dei vincoli di privacy e comunicazione. Nello specifico, il server non può accedere ai punteggi di previsione grezzi e alle etichette delle classi, che vengono utilizzati per calcolare le curve ROC e PR in un contesto centralizzato. In questo articolo, proponiamo un metodo innovativo per approssimare le curve ROC e PR in un contesto federato, stimando i quantili della distribuzione dei punteggi di previsione sotto la privacy differenziale distribuita. Forniamo limiti teorici sull'Errore dell'Area (AE) tra le curve vere e quelle stimate, dimostrando i compromessi tra accuratezza dell'approssimazione, privacy e costo di comunicazione. I risultati empirici su dataset del mondo reale dimostrano che il nostro metodo raggiunge un'elevata accuratezza di approssimazione con una comunicazione minima e forti garanzie di privacy, rendendolo pratico per la valutazione di modelli preservanti la privacy nei sistemi federati.
English
Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves are fundamental tools for evaluating machine learning classifiers, offering detailed insights into the trade-offs between true positive rate vs. false positive rate (ROC) or precision vs. recall (PR). However, in Federated Learning (FL) scenarios, where data is distributed across multiple clients, computing these curves is challenging due to privacy and communication constraints. Specifically, the server cannot access raw prediction scores and class labels, which are used to compute the ROC and PR curves in a centralized setting. In this paper, we propose a novel method for approximating ROC and PR curves in a federated setting by estimating quantiles of the prediction score distribution under distributed differential privacy. We provide theoretical bounds on the Area Error (AE) between the true and estimated curves, demonstrating the trade-offs between approximation accuracy, privacy, and communication cost. Empirical results on real-world datasets demonstrate that our method achieves high approximation accuracy with minimal communication and strong privacy guarantees, making it practical for privacy-preserving model evaluation in federated systems.
PDF02October 7, 2025