ROCおよびPR曲線の連合計算
Federated Computation of ROC and PR Curves
October 6, 2025
著者: Xuefeng Xu, Graham Cormode
cs.AI
要旨
受信者操作特性(ROC)曲線および適合率-再現率(PR)曲線は、機械学習分類器を評価するための基本的なツールであり、真陽性率と偽陽性率(ROC)または適合率と再現率(PR)のトレードオフに関する詳細な洞察を提供します。しかし、データが複数のクライアントに分散している連合学習(FL)シナリオでは、プライバシーと通信の制約により、これらの曲線を計算することが困難です。具体的には、サーバーは中央集権的な設定でROCおよびPR曲線を計算するために使用される生の予測スコアとクラスラベルにアクセスできません。本論文では、分散差分プライバシーの下で予測スコア分布の分位数を推定することにより、連合学習環境におけるROCおよびPR曲線を近似する新しい手法を提案します。真の曲線と推定曲線の間の面積誤差(AE)に関する理論的限界を示し、近似精度、プライバシー、通信コストのトレードオフを明らかにします。実世界のデータセットを用いた実験結果から、提案手法が最小限の通信と強力なプライバシー保証を伴い高い近似精度を達成し、連合システムにおけるプライバシー保護モデル評価に実用的であることが示されています。
English
Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves are
fundamental tools for evaluating machine learning classifiers, offering
detailed insights into the trade-offs between true positive rate vs. false
positive rate (ROC) or precision vs. recall (PR). However, in Federated
Learning (FL) scenarios, where data is distributed across multiple clients,
computing these curves is challenging due to privacy and communication
constraints. Specifically, the server cannot access raw prediction scores and
class labels, which are used to compute the ROC and PR curves in a centralized
setting. In this paper, we propose a novel method for approximating ROC and PR
curves in a federated setting by estimating quantiles of the prediction score
distribution under distributed differential privacy. We provide theoretical
bounds on the Area Error (AE) between the true and estimated curves,
demonstrating the trade-offs between approximation accuracy, privacy, and
communication cost. Empirical results on real-world datasets demonstrate that
our method achieves high approximation accuracy with minimal communication and
strong privacy guarantees, making it practical for privacy-preserving model
evaluation in federated systems.