Оценка рекомендаций подкастов с использованием профильно-ориентированного подхода LLM-as-a-Judge

Аннотация

Оценка персонализированных рекомендаций остается ключевой задачей, особенно в длинных аудиоформатах, таких как подкасты, где традиционные оффлайн-метрики страдают от смещения, связанного с экспозицией, а онлайн-методы, такие как A/B-тестирование, являются дорогостоящими и операционно ограниченными. В данной статье мы предлагаем новый фреймворк, который использует большие языковые модели (LLM) в качестве оффлайн-судей для оценки качества рекомендаций подкастов масштабируемым и интерпретируемым способом. Наш двухэтапный подход, учитывающий профили пользователей, сначала создает естественно-языковые профили, извлеченные из 90 дней истории прослушивания. Эти профили суммируют как тематические интересы, так и поведенческие паттерны, выступая в качестве компактных и интерпретируемых представлений предпочтений пользователей. Вместо использования сырых данных для запроса к LLM, мы используем эти профили для предоставления высокоуровневого, семантически насыщенного контекста, что позволяет LLM более эффективно анализировать соответствие между интересами пользователя и рекомендованными эпизодами. Это снижает сложность входных данных и повышает интерпретируемость. Затем LLM запрашивается для вынесения детализированных поточечных и попарных суждений на основе соответствия профиля и эпизода. В контролируемом исследовании с участием 47 человек наш подход, учитывающий профили, с высокой точностью соответствовал человеческим суждениям и превзошел или сравнялся с вариантом, использующим сырые данные истории прослушивания. Этот фреймворк позволяет проводить эффективную, учитывающую профили оценку для итеративного тестирования и выбора моделей в рекомендательных системах.

English

Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first constructs natural-language user profiles distilled from 90 days of listening history. These profiles summarize both topical interests and behavioral patterns, serving as compact, interpretable representations of user preferences. Rather than prompting the LLM with raw data, we use these profiles to provide high-level, semantically rich context-enabling the LLM to reason more effectively about alignment between a user's interests and recommended episodes. This reduces input complexity and improves interpretability. The LLM is then prompted to deliver fine-grained pointwise and pairwise judgments based on the profile-episode match. In a controlled study with 47 participants, our profile-aware judge matched human judgments with high fidelity and outperformed or matched a variant using raw listening histories. The framework enables efficient, profile-aware evaluation for iterative testing and model selection in recommender systems.

Оценка рекомендаций подкастов с использованием профильно-ориентированного подхода LLM-as-a-Judge

Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

Аннотация

Support