ChatPaper.aiChatPaper

Cálculo Federado de Curvas ROC y PR

Federated Computation of ROC and PR Curves

October 6, 2025
Autores: Xuefeng Xu, Graham Cormode
cs.AI

Resumen

Las curvas Receiver Operating Characteristic (ROC) y Precision-Recall (PR) son herramientas fundamentales para evaluar clasificadores de aprendizaje automático, ofreciendo información detallada sobre las compensaciones entre la tasa de verdaderos positivos frente a la tasa de falsos positivos (ROC) o la precisión frente a la exhaustividad (PR). Sin embargo, en escenarios de Aprendizaje Federado (FL), donde los datos están distribuidos entre múltiples clientes, el cálculo de estas curvas es un desafío debido a las restricciones de privacidad y comunicación. Específicamente, el servidor no puede acceder a las puntuaciones de predicción en bruto ni a las etiquetas de clase, que se utilizan para calcular las curvas ROC y PR en un entorno centralizado. En este artículo, proponemos un método novedoso para aproximar las curvas ROC y PR en un entorno federado mediante la estimación de cuantiles de la distribución de puntuaciones de predicción bajo privacidad diferencial distribuida. Proporcionamos límites teóricos sobre el Error del Área (AE) entre las curvas verdaderas y estimadas, demostrando las compensaciones entre la precisión de la aproximación, la privacidad y el costo de comunicación. Los resultados empíricos en conjuntos de datos del mundo real muestran que nuestro método logra una alta precisión de aproximación con una comunicación mínima y garantías sólidas de privacidad, lo que lo hace práctico para la evaluación de modelos que preservan la privacidad en sistemas federados.
English
Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves are fundamental tools for evaluating machine learning classifiers, offering detailed insights into the trade-offs between true positive rate vs. false positive rate (ROC) or precision vs. recall (PR). However, in Federated Learning (FL) scenarios, where data is distributed across multiple clients, computing these curves is challenging due to privacy and communication constraints. Specifically, the server cannot access raw prediction scores and class labels, which are used to compute the ROC and PR curves in a centralized setting. In this paper, we propose a novel method for approximating ROC and PR curves in a federated setting by estimating quantiles of the prediction score distribution under distributed differential privacy. We provide theoretical bounds on the Area Error (AE) between the true and estimated curves, demonstrating the trade-offs between approximation accuracy, privacy, and communication cost. Empirical results on real-world datasets demonstrate that our method achieves high approximation accuracy with minimal communication and strong privacy guarantees, making it practical for privacy-preserving model evaluation in federated systems.
PDF02October 7, 2025