Offline-Bewertungsmaßstäbe für Fairness in Recommendersystemen
Offline Evaluation Measures of Fairness in Recommender Systems
April 27, 2026
Autoren: Theresia Veronika Rampisela
cs.AI
Zusammenfassung
Die Bewertung der Fairness von Empfehlungssystemen hat zunehmend an Bedeutung gewonnen, insbesondere durch die jüngste Gesetzgebung, die die Entwicklung einer fairen und verantwortungsvollen künstlichen Intelligenz betont. Dies hat zur Entstehung verschiedener Fairness-Bewertungsmaße geführt, die Fairness basierend auf unterschiedlichen Definitionen quantifizieren. Viele dieser Maße werden jedoch einfach vorgeschlagen und verwendet, ohne dass ihre Robustheit weiter analysiert wird. Infolgedessen besteht ein unzureichendes Verständnis und Bewusstsein für die Grenzen dieser Maße. Unter anderem ist nicht bekannt, welche Art von Modelloutputs die (un)fairsten Werte erzeugen, wie die Maßwerte empirisch verteilt sind und ob es Fälle gibt, in denen die Maße nicht berechnet werden können (z. B. aufgrund einer Division durch Null). Diese Probleme erschweren die Interpretation der Maßwerte und führen zu Verwirrung darüber, welche Maße für einen bestimmten Fall verwendet werden sollten.
Diese Dissertation stellt eine Reihe von Artikeln vor, die verschiedene theoretische, empirische und konzeptionelle Grenzen bestehender Fairness-Bewertungsmaße für Empfehlungssysteme untersuchen und überwinden. Wir untersuchen eine breite Palette von Offline-Bewertungsmaßen für verschiedene Fairness-Konzepte, die nach Bewertungsobjekten (Nutzer und Items) und für verschiedene Bewertungsgranularitäten (Gruppen von Objekten und einzelne Objekte) unterteilt werden. Erstens führen wir eine theoretische und empirische Analyse der Maße durch, die Mängel aufdeckt, welche ihre Interpretierbarkeit, Aussagekraft oder Anwendbarkeit einschränken. Zweitens tragen wir neuartige Bewertungsansätze und Maße bei, die diese Grenzen überwinden. Schließlich empfehlen wir unter Berücksichtigung der Grenzen der Maße Richtlinien für deren angemessene Verwendung, um eine präzisere Auswahl von Fairness-Bewertungsmaßen in praktischen Szenarien zu ermöglichen.
Insgesamt leistet diese Dissertation einen Beitrag zur Weiterentwicklung des Standes der Technik bei der Offline-Bewertung von Fairness in Empfehlungssystemen.
English
The evaluation of recommender system fairness has become increasingly important, especially with recent legislation that emphasises the development of fair and responsible artificial intelligence. This has led to the emergence of various fairness evaluation measures, which quantify fairness based on different definitions. However, many of such measures are simply proposed and used without further analysis on their robustness. As a result, there is insufficient understanding and awareness of the measures' limitations. Among other issues, it is not known what kind of model outputs produce the (un)fairest score, how the measure scores are empirically distributed, and whether there are cases where the measures cannot be computed (e.g., due to division by zero). These issues cause difficulty in interpreting the measure scores and confusion on which measure(s) should be used for a specific case.
This thesis presents a series of papers that assess and overcome various theoretical, empirical, and conceptual limitations of existing recommender system fairness evaluation measures. We investigate a wide range of offline evaluation measures for different fairness notions, divided based on the evaluation subjects (users and items) and for different evaluation granularities (groups of subjects and individual subjects). Firstly, we perform theoretical and empirical analysis on the measures, exposing flaws that limit their interpretability, expressiveness, or applicability. Secondly, we contribute novel evaluation approaches and measures that overcome these limitations. Finally, considering the measures' limitations, we recommend guidelines for the appropriate measure usage, thereby allowing for more precise selection of fairness evaluation measures in practical scenarios.
Overall, this thesis contributes to advancing the state-of-the-art offline evaluation of fairness in recommender systems.