Cálculo Federado de Curvas ROC e PR
Federated Computation of ROC and PR Curves
October 6, 2025
Autores: Xuefeng Xu, Graham Cormode
cs.AI
Resumo
As curvas Receiver Operating Characteristic (ROC) e Precision-Recall (PR) são ferramentas fundamentais para avaliar classificadores de aprendizado de máquina, oferecendo insights detalhados sobre as compensações entre a taxa de verdadeiros positivos versus a taxa de falsos positivos (ROC) ou precisão versus recall (PR). No entanto, em cenários de Aprendizado Federado (FL), onde os dados estão distribuídos entre múltiplos clientes, o cálculo dessas curvas é desafiador devido a restrições de privacidade e comunicação. Especificamente, o servidor não pode acessar as pontuações brutas de predição e os rótulos das classes, que são usados para calcular as curvas ROC e PR em um ambiente centralizado. Neste artigo, propomos um método inovador para aproximar as curvas ROC e PR em um ambiente federado, estimando quantis da distribuição das pontuações de predição sob privacidade diferencial distribuída. Fornecemos limites teóricos sobre o Erro de Área (EA) entre as curvas verdadeiras e estimadas, demonstrando as compensações entre precisão de aproximação, privacidade e custo de comunicação. Resultados empíricos em conjuntos de dados do mundo real mostram que nosso método alcança alta precisão de aproximação com comunicação mínima e fortes garantias de privacidade, tornando-o prático para a avaliação de modelos com preservação de privacidade em sistemas federados.
English
Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves are
fundamental tools for evaluating machine learning classifiers, offering
detailed insights into the trade-offs between true positive rate vs. false
positive rate (ROC) or precision vs. recall (PR). However, in Federated
Learning (FL) scenarios, where data is distributed across multiple clients,
computing these curves is challenging due to privacy and communication
constraints. Specifically, the server cannot access raw prediction scores and
class labels, which are used to compute the ROC and PR curves in a centralized
setting. In this paper, we propose a novel method for approximating ROC and PR
curves in a federated setting by estimating quantiles of the prediction score
distribution under distributed differential privacy. We provide theoretical
bounds on the Area Error (AE) between the true and estimated curves,
demonstrating the trade-offs between approximation accuracy, privacy, and
communication cost. Empirical results on real-world datasets demonstrate that
our method achieves high approximation accuracy with minimal communication and
strong privacy guarantees, making it practical for privacy-preserving model
evaluation in federated systems.