Федеративное вычисление ROC- и PR-кривых
Federated Computation of ROC and PR Curves
October 6, 2025
Авторы: Xuefeng Xu, Graham Cormode
cs.AI
Аннотация
Кривые Receiver Operating Characteristic (ROC) и Precision-Recall (PR) являются фундаментальными инструментами для оценки классификаторов машинного обучения, предоставляя детальное понимание компромиссов между долей истинно положительных результатов и долей ложноположительных результатов (ROC) или между точностью и полнотой (PR). Однако в сценариях федеративного обучения (Federated Learning, FL), где данные распределены между несколькими клиентами, вычисление этих кривых становится сложной задачей из-за ограничений, связанных с конфиденциальностью и коммуникацией. В частности, сервер не имеет доступа к исходным оценкам предсказаний и меткам классов, которые используются для вычисления кривых ROC и PR в централизованной среде. В данной статье мы предлагаем новый метод аппроксимации кривых ROC и PR в условиях федеративного обучения путем оценки квантилей распределения оценок предсказаний с использованием распределенного дифференциального обеспечения конфиденциальности. Мы предоставляем теоретические оценки ошибки площади (Area Error, AE) между истинными и аппроксимированными кривыми, демонстрируя компромиссы между точностью аппроксимации, конфиденциальностью и затратами на коммуникацию. Экспериментальные результаты на реальных наборах данных показывают, что наш метод обеспечивает высокую точность аппроксимации при минимальных затратах на коммуникацию и строгих гарантиях конфиденциальности, что делает его практичным для оценки моделей с сохранением конфиденциальности в федеративных системах.
English
Receiver Operating Characteristic (ROC) and Precision-Recall (PR) curves are
fundamental tools for evaluating machine learning classifiers, offering
detailed insights into the trade-offs between true positive rate vs. false
positive rate (ROC) or precision vs. recall (PR). However, in Federated
Learning (FL) scenarios, where data is distributed across multiple clients,
computing these curves is challenging due to privacy and communication
constraints. Specifically, the server cannot access raw prediction scores and
class labels, which are used to compute the ROC and PR curves in a centralized
setting. In this paper, we propose a novel method for approximating ROC and PR
curves in a federated setting by estimating quantiles of the prediction score
distribution under distributed differential privacy. We provide theoretical
bounds on the Area Error (AE) between the true and estimated curves,
demonstrating the trade-offs between approximation accuracy, privacy, and
communication cost. Empirical results on real-world datasets demonstrate that
our method achieves high approximation accuracy with minimal communication and
strong privacy guarantees, making it practical for privacy-preserving model
evaluation in federated systems.