Valutazione delle Raccomandazioni di Podcast con LLM-as-a-Judge Consapevole del Profilo
Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
August 12, 2025
Autori: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI
Abstract
La valutazione di raccomandazioni personalizzate rimane una sfida centrale, specialmente in domini audio di lunga durata come i podcast, dove le metriche offline tradizionali soffrono di bias di esposizione e i metodi online come i test A/B sono costosi e operativamente limitati. In questo articolo, proponiamo un nuovo framework che sfrutta i Large Language Models (LLM) come giudici offline per valutare la qualità delle raccomandazioni di podcast in modo scalabile e interpretabile. Il nostro approccio a due stadi, consapevole del profilo, costruisce prima profili utente in linguaggio naturale distillati da 90 giorni di cronologia di ascolto. Questi profili riassumono sia gli interessi tematici che i modelli comportamentali, fungendo da rappresentazioni compatte e interpretabili delle preferenze dell'utente. Invece di fornire al LLM dati grezzi, utilizziamo questi profili per fornire un contesto di alto livello e semanticamente ricco, consentendo al LLM di ragionare in modo più efficace sull'allineamento tra gli interessi dell'utente e gli episodi raccomandati. Ciò riduce la complessità dell'input e migliora l'interpretabilità. Il LLM viene quindi sollecitato a fornire giudizi puntuali e a coppie basati sulla corrispondenza profilo-episodio. In uno studio controllato con 47 partecipanti, il nostro giudice consapevole del profilo ha corrisposto ai giudizi umani con alta fedeltà e ha superato o eguagliato una variante che utilizzava cronologie di ascolto grezze. Il framework consente una valutazione efficiente e consapevole del profilo per test iterativi e selezione di modelli nei sistemi di raccomandazione.
English
Evaluating personalized recommendations remains a central challenge,
especially in long-form audio domains like podcasts, where traditional offline
metrics suffer from exposure bias and online methods such as A/B testing are
costly and operationally constrained. In this paper, we propose a novel
framework that leverages Large Language Models (LLMs) as offline judges to
assess the quality of podcast recommendations in a scalable and interpretable
manner. Our two-stage profile-aware approach first constructs natural-language
user profiles distilled from 90 days of listening history. These profiles
summarize both topical interests and behavioral patterns, serving as compact,
interpretable representations of user preferences. Rather than prompting the
LLM with raw data, we use these profiles to provide high-level, semantically
rich context-enabling the LLM to reason more effectively about alignment
between a user's interests and recommended episodes. This reduces input
complexity and improves interpretability. The LLM is then prompted to deliver
fine-grained pointwise and pairwise judgments based on the profile-episode
match. In a controlled study with 47 participants, our profile-aware judge
matched human judgments with high fidelity and outperformed or matched a
variant using raw listening histories. The framework enables efficient,
profile-aware evaluation for iterative testing and model selection in
recommender systems.