推薦システムにおける公平性のオフライン評価指標
Offline Evaluation Measures of Fairness in Recommender Systems
April 27, 2026
著者: Theresia Veronika Rampisela
cs.AI
要旨
推薦システムの公平性評価は、特に公正で責任ある人工知能の開発を重視する最近の法規制により、その重要性が高まっている。これに伴い、様々な公平性評価指標が登場し、それぞれ異なる定義に基づいて公平性を定量化している。しかし、多くの指標は単に提案され使用されるだけで、その頑健性に関する詳細な分析が不足している。その結果、指標の限界についての理解と認識が不十分である。特に、どのようなモデル出力が(非)公平なスコアを生み出すのか、指標スコアの経験的な分布はどのようなものか、指標が計算不能となる場合(例:ゼロ除算)があるかどうか、といった点が不明確である。これらの問題は、指標スコアの解釈を困難にし、特定のケースでどの指標を使用すべきかについて混乱を招く。
本論文は、既存の推薦システム公平性評価指標が持つ理論的、実証的、概念的な様々な限界を評価し、克服する一連の研究を提示する。我々は、評価対象(ユーザとアイテム)と評価粒度(対象群と個別対象)に基づいて分類された、異なる公平性概念に対する多様なオフライン評価指標を調査する。まず、指標に対して理論的及び実証的分析を行い、それらの解釈可能性、表現力、または適用可能性を制限する欠点を明らかにする。次に、これらの限界を克服する新しい評価手法と指標を提案する。最後に、指標の限界を考慮し、適切な指標使用のためのガイドラインを提言することで、実践的な場面における公平性評価指標のより精密な選択を可能にする。
全体として、本論文は推薦システムの公平性に関するオフライン評価の最先端を推進するものである。
English
The evaluation of recommender system fairness has become increasingly important, especially with recent legislation that emphasises the development of fair and responsible artificial intelligence. This has led to the emergence of various fairness evaluation measures, which quantify fairness based on different definitions. However, many of such measures are simply proposed and used without further analysis on their robustness. As a result, there is insufficient understanding and awareness of the measures' limitations. Among other issues, it is not known what kind of model outputs produce the (un)fairest score, how the measure scores are empirically distributed, and whether there are cases where the measures cannot be computed (e.g., due to division by zero). These issues cause difficulty in interpreting the measure scores and confusion on which measure(s) should be used for a specific case.
This thesis presents a series of papers that assess and overcome various theoretical, empirical, and conceptual limitations of existing recommender system fairness evaluation measures. We investigate a wide range of offline evaluation measures for different fairness notions, divided based on the evaluation subjects (users and items) and for different evaluation granularities (groups of subjects and individual subjects). Firstly, we perform theoretical and empirical analysis on the measures, exposing flaws that limit their interpretability, expressiveness, or applicability. Secondly, we contribute novel evaluation approaches and measures that overcome these limitations. Finally, considering the measures' limitations, we recommend guidelines for the appropriate measure usage, thereby allowing for more precise selection of fairness evaluation measures in practical scenarios.
Overall, this thesis contributes to advancing the state-of-the-art offline evaluation of fairness in recommender systems.