ChatPaper.aiChatPaper

Évaluation des recommandations de podcasts avec un LLM conscient des profils en tant que juge

Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

August 12, 2025
papers.authors: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI

papers.abstract

L'évaluation des recommandations personnalisées reste un défi central, en particulier dans les domaines audio de longue durée comme les podcasts, où les métriques traditionnelles hors ligne souffrent de biais d'exposition et où les méthodes en ligne telles que les tests A/B sont coûteuses et opérationnellement contraignantes. Dans cet article, nous proposons un cadre novateur qui exploite les modèles de langage de grande taille (LLM) en tant qu'évaluateurs hors ligne pour juger de la qualité des recommandations de podcasts de manière scalable et interprétable. Notre approche en deux étapes, prenant en compte les profils, commence par construire des profils utilisateur en langage naturel distillés à partir de 90 jours d'historique d'écoute. Ces profils résument à la fois les centres d'intérêt thématiques et les modèles comportementaux, servant de représentations compactes et interprétables des préférences des utilisateurs. Plutôt que de fournir au LLM des données brutes, nous utilisons ces profils pour fournir un contexte de haut niveau et sémantiquement riche, permettant au LLM de raisonner plus efficacement sur l'alignement entre les intérêts d'un utilisateur et les épisodes recommandés. Cela réduit la complexité des entrées et améliore l'interprétabilité. Le LLM est ensuite sollicité pour fournir des jugements point par point et par paires basés sur la correspondance profil-épisode. Dans une étude contrôlée avec 47 participants, notre évaluateur prenant en compte les profils a correspondu aux jugements humains avec une grande fidélité et a surpassé ou égalé une variante utilisant des historiques d'écoute bruts. Ce cadre permet une évaluation efficace et prenant en compte les profils pour des tests itératifs et la sélection de modèles dans les systèmes de recommandation.
English
Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first constructs natural-language user profiles distilled from 90 days of listening history. These profiles summarize both topical interests and behavioral patterns, serving as compact, interpretable representations of user preferences. Rather than prompting the LLM with raw data, we use these profiles to provide high-level, semantically rich context-enabling the LLM to reason more effectively about alignment between a user's interests and recommended episodes. This reduces input complexity and improves interpretability. The LLM is then prompted to deliver fine-grained pointwise and pairwise judgments based on the profile-episode match. In a controlled study with 47 participants, our profile-aware judge matched human judgments with high fidelity and outperformed or matched a variant using raw listening histories. The framework enables efficient, profile-aware evaluation for iterative testing and model selection in recommender systems.
PDF101August 20, 2025