ChatPaper.aiChatPaper

Evaluación de Recomendaciones de Podcastes con LLM como Juez Consciente del Perfil

Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

August 12, 2025
Autores: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI

Resumen

La evaluación de recomendaciones personalizadas sigue siendo un desafío central, especialmente en dominios de audio de larga duración como los podcasts, donde las métricas tradicionales fuera de línea sufren de sesgo de exposición y los métodos en línea, como las pruebas A/B, son costosos y operativamente limitados. En este artículo, proponemos un marco novedoso que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como evaluadores fuera de línea para valorar la calidad de las recomendaciones de podcasts de manera escalable e interpretable. Nuestro enfoque de dos etapas, consciente del perfil, primero construye perfiles de usuario en lenguaje natural destilados a partir de 90 días de historial de escucha. Estos perfiles resumen tanto los intereses temáticos como los patrones de comportamiento, sirviendo como representaciones compactas e interpretables de las preferencias del usuario. En lugar de proporcionar al LLM datos en bruto, utilizamos estos perfiles para ofrecer un contexto de alto nivel y semánticamente rico, permitiendo que el LLM razone de manera más efectiva sobre la alineación entre los intereses del usuario y los episodios recomendados. Esto reduce la complejidad de la entrada y mejora la interpretabilidad. Luego, se solicita al LLM que emita juicios detallados, tanto puntuales como por pares, basados en la correspondencia entre el perfil y el episodio. En un estudio controlado con 47 participantes, nuestro evaluador consciente del perfil coincidió con los juicios humanos con alta fidelidad y superó o igualó a una variante que utilizaba historiales de escucha en bruto. Este marco permite una evaluación eficiente y consciente del perfil para pruebas iterativas y selección de modelos en sistemas de recomendación.
English
Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first constructs natural-language user profiles distilled from 90 days of listening history. These profiles summarize both topical interests and behavioral patterns, serving as compact, interpretable representations of user preferences. Rather than prompting the LLM with raw data, we use these profiles to provide high-level, semantically rich context-enabling the LLM to reason more effectively about alignment between a user's interests and recommended episodes. This reduces input complexity and improves interpretability. The LLM is then prompted to deliver fine-grained pointwise and pairwise judgments based on the profile-episode match. In a controlled study with 47 participants, our profile-aware judge matched human judgments with high fidelity and outperformed or matched a variant using raw listening histories. The framework enables efficient, profile-aware evaluation for iterative testing and model selection in recommender systems.
PDF101August 20, 2025