プロファイルを考慮したLLM-as-a-Judgeを用いたポッドキャスト推薦の評価
Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge
August 12, 2025
著者: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI
要旨
パーソナライズされたレコメンデーションの評価は、依然として中心的な課題であり、特にポッドキャストのような長時間の音声ドメインでは、従来のオフライン指標は露出バイアスに悩まされ、A/Bテストのようなオンライン手法はコストがかかり、運用上の制約も多い。本論文では、大規模言語モデル(LLM)をオフラインの審査員として活用し、スケーラブルで解釈可能な方法でポッドキャストのレコメンデーションの品質を評価する新しいフレームワークを提案する。我々の2段階のプロファイル認識アプローチでは、まず90日間のリスニング履歴から抽出された自然言語のユーザープロファイルを構築する。これらのプロファイルは、トピックへの興味と行動パターンの両方を要約し、ユーザーの嗜好をコンパクトで解釈可能な形で表現する。LLMに生データをプロンプトする代わりに、これらのプロファイルを使用して高レベルで意味的に豊かなコンテキストを提供し、LLMがユーザーの興味と推奨エピソードの整合性についてより効果的に推論できるようにする。これにより、入力の複雑さが軽減され、解釈可能性が向上する。次に、LLMはプロファイルとエピソードのマッチに基づいて、細かいポイントワイズおよびペアワイズの判断を下すようプロンプトされる。47人の参加者を対象とした制御された研究では、プロファイル認識型の審査員は人間の判断と高い忠実度で一致し、生のリスニング履歴を使用したバリアントを上回るか、同等の性能を示した。このフレームワークは、レコメンダーシステムにおける反復的なテストとモデル選択のための効率的でプロファイル認識型の評価を可能にする。
English
Evaluating personalized recommendations remains a central challenge,
especially in long-form audio domains like podcasts, where traditional offline
metrics suffer from exposure bias and online methods such as A/B testing are
costly and operationally constrained. In this paper, we propose a novel
framework that leverages Large Language Models (LLMs) as offline judges to
assess the quality of podcast recommendations in a scalable and interpretable
manner. Our two-stage profile-aware approach first constructs natural-language
user profiles distilled from 90 days of listening history. These profiles
summarize both topical interests and behavioral patterns, serving as compact,
interpretable representations of user preferences. Rather than prompting the
LLM with raw data, we use these profiles to provide high-level, semantically
rich context-enabling the LLM to reason more effectively about alignment
between a user's interests and recommended episodes. This reduces input
complexity and improves interpretability. The LLM is then prompted to deliver
fine-grained pointwise and pairwise judgments based on the profile-episode
match. In a controlled study with 47 participants, our profile-aware judge
matched human judgments with high fidelity and outperformed or matched a
variant using raw listening histories. The framework enables efficient,
profile-aware evaluation for iterative testing and model selection in
recommender systems.