프로필 인식 LLM-as-a-Judge를 활용한 팟캐스트 추천 평가
Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
August 12, 2025
저자: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI
초록
개인화된 추천 시스템의 평가는 여전히 핵심적인 과제로 남아 있으며, 특히 팟캐스트와 같은 장편 오디오 콘텐츠 영역에서는 기존의 오프라인 평가 지표가 노출 편향 문제를 겪고, A/B 테스트와 같은 온라인 방법은 비용이 많이 들고 운영상의 제약이 따릅니다. 본 논문에서는 대규모 언어 모델(LLM)을 오프라인 평가자로 활용하여 팟캐스트 추천의 품질을 확장 가능하고 해석 가능한 방식으로 평가하는 새로운 프레임워크를 제안합니다. 우리의 2단계 프로파일 인식 접근 방식은 먼저 90일간의 청취 기록에서 추출한 자연어 사용자 프로파일을 구성합니다. 이러한 프로파일은 주제별 관심사와 행동 패턴을 요약하여 사용자 선호도를 간결하고 해석 가능한 형태로 표현합니다. 원시 데이터를 LLM에 직접 입력하는 대신, 이러한 프로파일을 사용하여 고차원적이고 의미론적으로 풍부한 컨텍스트를 제공함으로써 LLM이 사용자의 관심사와 추천된 에피소드 간의 일치성을 더 효과적으로 추론할 수 있도록 합니다. 이는 입력 복잡성을 줄이고 해석 가능성을 향상시킵니다. 이후 LLM은 프로파일과 에피소드 간의 매칭을 기반으로 세분화된 점수 기반 및 쌍대 비교 평가를 수행하도록 프롬프트됩니다. 47명의 참가자를 대상으로 한 통제된 연구에서, 우리의 프로파일 인식 평가자는 인간의 판단과 높은 정확도로 일치했으며, 원시 청취 기록을 사용한 변형 모델과 동등하거나 더 나은 성능을 보였습니다. 이 프레임워크는 추천 시스템의 반복적 테스트와 모델 선택을 위한 효율적이고 프로파일 인식적인 평가를 가능하게 합니다.
English
Evaluating personalized recommendations remains a central challenge,
especially in long-form audio domains like podcasts, where traditional offline
metrics suffer from exposure bias and online methods such as A/B testing are
costly and operationally constrained. In this paper, we propose a novel
framework that leverages Large Language Models (LLMs) as offline judges to
assess the quality of podcast recommendations in a scalable and interpretable
manner. Our two-stage profile-aware approach first constructs natural-language
user profiles distilled from 90 days of listening history. These profiles
summarize both topical interests and behavioral patterns, serving as compact,
interpretable representations of user preferences. Rather than prompting the
LLM with raw data, we use these profiles to provide high-level, semantically
rich context-enabling the LLM to reason more effectively about alignment
between a user's interests and recommended episodes. This reduces input
complexity and improves interpretability. The LLM is then prompted to deliver
fine-grained pointwise and pairwise judgments based on the profile-episode
match. In a controlled study with 47 participants, our profile-aware judge
matched human judgments with high fidelity and outperformed or matched a
variant using raw listening histories. The framework enables efficient,
profile-aware evaluation for iterative testing and model selection in
recommender systems.