ChatPaper.aiChatPaper

Podcastaanbevelingen evalueren met profielbewuste LLM-als-rechter

Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

August 12, 2025
Auteurs: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI

Samenvatting

Het evalueren van gepersonaliseerde aanbevelingen blijft een centrale uitdaging, vooral in langdurige audio domeinen zoals podcasts, waar traditionele offline metrieken lijden onder exposure bias en online methoden zoals A/B-testen kostbaar en operationeel beperkt zijn. In dit artikel stellen we een nieuw framework voor dat gebruikmaakt van Large Language Models (LLMs) als offline beoordelaars om de kwaliteit van podcastaanbevelingen op een schaalbare en interpreteerbare manier te beoordelen. Onze tweefasen profielbewuste aanpak construeert eerst natuurlijke-taal gebruikersprofielen die zijn gedestilleerd uit 90 dagen luistergeschiedenis. Deze profielen vatten zowel thematische interesses als gedragspatronen samen en dienen als compacte, interpreteerbare representaties van gebruikersvoorkeuren. In plaats van de LLM te voorzien van ruwe data, gebruiken we deze profielen om hoogwaardige, semantisch rijke context te bieden, waardoor de LLM effectiever kan redeneren over de afstemming tussen de interesses van een gebruiker en aanbevolen afleveringen. Dit vermindert de invoercomplexiteit en verbetert de interpreteerbaarheid. De LLM wordt vervolgens gevraagd om fijnmazige punt- en paarsgewijze beoordelingen te leveren op basis van de profiel-aflevering match. In een gecontroleerde studie met 47 deelnemers kwam onze profielbewuste beoordelaar met hoge nauwkeurigheid overeen met menselijke beoordelingen en presteerde beter of even goed als een variant die ruwe luistergeschiedenissen gebruikte. Het framework maakt efficiënte, profielbewuste evaluatie mogelijk voor iteratieve tests en modelselectie in aanbevelingssystemen.
English
Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first constructs natural-language user profiles distilled from 90 days of listening history. These profiles summarize both topical interests and behavioral patterns, serving as compact, interpretable representations of user preferences. Rather than prompting the LLM with raw data, we use these profiles to provide high-level, semantically rich context-enabling the LLM to reason more effectively about alignment between a user's interests and recommended episodes. This reduces input complexity and improves interpretability. The LLM is then prompted to deliver fine-grained pointwise and pairwise judgments based on the profile-episode match. In a controlled study with 47 participants, our profile-aware judge matched human judgments with high fidelity and outperformed or matched a variant using raw listening histories. The framework enables efficient, profile-aware evaluation for iterative testing and model selection in recommender systems.
PDF152August 20, 2025