ChatPaper.aiChatPaper

プロファイルを考慮したLLM-as-a-Judgeを用いたポッドキャスト推薦の評価

Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

August 12, 2025
著者: Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas
cs.AI

要旨

パーソナライズされたレコメンデーションの評価は、依然として中心的な課題であり、特にポッドキャストのような長時間の音声ドメインでは、従来のオフライン指標は露出バイアスに悩まされ、A/Bテストのようなオンライン手法はコストがかかり、運用上の制約も多い。本論文では、大規模言語モデル(LLM)をオフラインの審査員として活用し、スケーラブルで解釈可能な方法でポッドキャストのレコメンデーションの品質を評価する新しいフレームワークを提案する。我々の2段階のプロファイル認識アプローチでは、まず90日間のリスニング履歴から抽出された自然言語のユーザープロファイルを構築する。これらのプロファイルは、トピックへの興味と行動パターンの両方を要約し、ユーザーの嗜好をコンパクトで解釈可能な形で表現する。LLMに生データをプロンプトする代わりに、これらのプロファイルを使用して高レベルで意味的に豊かなコンテキストを提供し、LLMがユーザーの興味と推奨エピソードの整合性についてより効果的に推論できるようにする。これにより、入力の複雑さが軽減され、解釈可能性が向上する。次に、LLMはプロファイルとエピソードのマッチに基づいて、細かいポイントワイズおよびペアワイズの判断を下すようプロンプトされる。47人の参加者を対象とした制御された研究では、プロファイル認識型の審査員は人間の判断と高い忠実度で一致し、生のリスニング履歴を使用したバリアントを上回るか、同等の性能を示した。このフレームワークは、レコメンダーシステムにおける反復的なテストとモデル選択のための効率的でプロファイル認識型の評価を可能にする。
English
Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first constructs natural-language user profiles distilled from 90 days of listening history. These profiles summarize both topical interests and behavioral patterns, serving as compact, interpretable representations of user preferences. Rather than prompting the LLM with raw data, we use these profiles to provide high-level, semantically rich context-enabling the LLM to reason more effectively about alignment between a user's interests and recommended episodes. This reduces input complexity and improves interpretability. The LLM is then prompted to deliver fine-grained pointwise and pairwise judgments based on the profile-episode match. In a controlled study with 47 participants, our profile-aware judge matched human judgments with high fidelity and outperformed or matched a variant using raw listening histories. The framework enables efficient, profile-aware evaluation for iterative testing and model selection in recommender systems.
PDF101August 20, 2025