ChatPaper.aiChatPaper

Avaliação de Recomendações de Podcasts com LLM como Juiz Consciente de Perfil

Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

August 12, 2025
Autores: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI

Resumo

A avaliação de recomendações personalizadas continua sendo um desafio central, especialmente em domínios de áudio de longa duração, como podcasts, onde as métricas tradicionais offline sofrem com viés de exposição e métodos online, como testes A/B, são custosos e operacionalmente limitados. Neste artigo, propomos uma nova estrutura que aproveita Modelos de Linguagem de Grande Escala (LLMs) como juízes offline para avaliar a qualidade das recomendações de podcasts de maneira escalável e interpretável. Nossa abordagem em duas etapas, consciente do perfil, primeiro constrói perfis de usuários em linguagem natural, extraídos de 90 dias de histórico de escuta. Esses perfis resumem tanto interesses temáticos quanto padrões comportamentais, servindo como representações compactas e interpretáveis das preferências do usuário. Em vez de fornecer dados brutos ao LLM, utilizamos esses perfis para fornecer contexto de alto nível e semanticamente rico, permitindo que o LLM raciocine de forma mais eficaz sobre o alinhamento entre os interesses do usuário e os episódios recomendados. Isso reduz a complexidade da entrada e melhora a interpretabilidade. O LLM é então solicitado a fornecer julgamentos pontuais e pareados detalhados com base na correspondência entre perfil e episódio. Em um estudo controlado com 47 participantes, nosso juiz consciente do perfil correspondeu aos julgamentos humanos com alta fidelidade e superou ou igualou uma variante que utilizava históricos de escuta brutos. A estrutura possibilita uma avaliação eficiente e consciente do perfil para testes iterativos e seleção de modelos em sistemas de recomendação.
English
Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first constructs natural-language user profiles distilled from 90 days of listening history. These profiles summarize both topical interests and behavioral patterns, serving as compact, interpretable representations of user preferences. Rather than prompting the LLM with raw data, we use these profiles to provide high-level, semantically rich context-enabling the LLM to reason more effectively about alignment between a user's interests and recommended episodes. This reduces input complexity and improves interpretability. The LLM is then prompted to deliver fine-grained pointwise and pairwise judgments based on the profile-episode match. In a controlled study with 47 participants, our profile-aware judge matched human judgments with high fidelity and outperformed or matched a variant using raw listening histories. The framework enables efficient, profile-aware evaluation for iterative testing and model selection in recommender systems.
PDF152August 20, 2025