Оценка рекомендаций подкастов с использованием профильно-ориентированного подхода LLM-as-a-Judge
Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
August 12, 2025
Авторы: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI
Аннотация
Оценка персонализированных рекомендаций остается ключевой задачей, особенно в длинных аудиоформатах, таких как подкасты, где традиционные оффлайн-метрики страдают от смещения, связанного с экспозицией, а онлайн-методы, такие как A/B-тестирование, являются дорогостоящими и операционно ограниченными. В данной статье мы предлагаем новый фреймворк, который использует большие языковые модели (LLM) в качестве оффлайн-судей для оценки качества рекомендаций подкастов масштабируемым и интерпретируемым способом. Наш двухэтапный подход, учитывающий профили пользователей, сначала создает естественно-языковые профили, извлеченные из 90 дней истории прослушивания. Эти профили суммируют как тематические интересы, так и поведенческие паттерны, выступая в качестве компактных и интерпретируемых представлений предпочтений пользователей. Вместо использования сырых данных для запроса к LLM, мы используем эти профили для предоставления высокоуровневого, семантически насыщенного контекста, что позволяет LLM более эффективно анализировать соответствие между интересами пользователя и рекомендованными эпизодами. Это снижает сложность входных данных и повышает интерпретируемость. Затем LLM запрашивается для вынесения детализированных поточечных и попарных суждений на основе соответствия профиля и эпизода. В контролируемом исследовании с участием 47 человек наш подход, учитывающий профили, с высокой точностью соответствовал человеческим суждениям и превзошел или сравнялся с вариантом, использующим сырые данные истории прослушивания. Этот фреймворк позволяет проводить эффективную, учитывающую профили оценку для итеративного тестирования и выбора моделей в рекомендательных системах.
English
Evaluating personalized recommendations remains a central challenge,
especially in long-form audio domains like podcasts, where traditional offline
metrics suffer from exposure bias and online methods such as A/B testing are
costly and operationally constrained. In this paper, we propose a novel
framework that leverages Large Language Models (LLMs) as offline judges to
assess the quality of podcast recommendations in a scalable and interpretable
manner. Our two-stage profile-aware approach first constructs natural-language
user profiles distilled from 90 days of listening history. These profiles
summarize both topical interests and behavioral patterns, serving as compact,
interpretable representations of user preferences. Rather than prompting the
LLM with raw data, we use these profiles to provide high-level, semantically
rich context-enabling the LLM to reason more effectively about alignment
between a user's interests and recommended episodes. This reduces input
complexity and improves interpretability. The LLM is then prompted to deliver
fine-grained pointwise and pairwise judgments based on the profile-episode
match. In a controlled study with 47 participants, our profile-aware judge
matched human judgments with high fidelity and outperformed or matched a
variant using raw listening histories. The framework enables efficient,
profile-aware evaluation for iterative testing and model selection in
recommender systems.