Bewertung von Podcast-Empfehlungen mit profilbewusstem LLM-als-Richter
Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
August 12, 2025
papers.authors: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI
papers.abstract
Die Bewertung personalisierter Empfehlungen bleibt eine zentrale Herausforderung, insbesondere in langen Audioformaten wie Podcasts, bei denen traditionelle Offline-Metriken unter Verzerrungen durch die Exposition leiden und Online-Methoden wie A/B-Tests kostspielig und operativ eingeschränkt sind. In diesem Artikel schlagen wir ein neuartiges Framework vor, das Large Language Models (LLMs) als Offline-Bewerter nutzt, um die Qualität von Podcast-Empfehlungen skalierbar und interpretierbar zu bewerten. Unser zweistufiger, profilbasierter Ansatz erstellt zunächst natürlichsprachliche Benutzerprofile, die aus 90 Tagen Hörverlauf destilliert werden. Diese Profile fassen sowohl thematische Interessen als auch Verhaltensmuster zusammen und dienen als kompakte, interpretierbare Darstellungen der Benutzerpräferenzen. Anstatt den LLM mit Rohdaten zu versorgen, verwenden wir diese Profile, um hochwertigen, semantisch reichen Kontext bereitzustellen, der es dem LLM ermöglicht, effektiver über die Übereinstimmung zwischen den Interessen eines Benutzers und den empfohlenen Episoden zu urteilen. Dies reduziert die Eingabekomplexität und verbessert die Interpretierbarkeit. Der LLM wird dann aufgefordert, feinkörnige punktuelle und paarweise Bewertungen basierend auf der Profil-Episode-Übereinstimmung abzugeben. In einer kontrollierten Studie mit 47 Teilnehmern stimmte unser profilbasierter Bewerter mit hoher Genauigkeit mit menschlichen Bewertungen überein und übertraf oder erreichte eine Variante, die Rohhörverläufe verwendete. Das Framework ermöglicht eine effiziente, profilbasierte Bewertung für iteratives Testen und Modellauswahl in Empfehlungssystemen.
English
Evaluating personalized recommendations remains a central challenge,
especially in long-form audio domains like podcasts, where traditional offline
metrics suffer from exposure bias and online methods such as A/B testing are
costly and operationally constrained. In this paper, we propose a novel
framework that leverages Large Language Models (LLMs) as offline judges to
assess the quality of podcast recommendations in a scalable and interpretable
manner. Our two-stage profile-aware approach first constructs natural-language
user profiles distilled from 90 days of listening history. These profiles
summarize both topical interests and behavioral patterns, serving as compact,
interpretable representations of user preferences. Rather than prompting the
LLM with raw data, we use these profiles to provide high-level, semantically
rich context-enabling the LLM to reason more effectively about alignment
between a user's interests and recommended episodes. This reduces input
complexity and improves interpretability. The LLM is then prompted to deliver
fine-grained pointwise and pairwise judgments based on the profile-episode
match. In a controlled study with 47 participants, our profile-aware judge
matched human judgments with high fidelity and outperformed or matched a
variant using raw listening histories. The framework enables efficient,
profile-aware evaluation for iterative testing and model selection in
recommender systems.