ChatPaper.aiChatPaper

Rank-GRPO:強化学習を用いたLLMベース対話型推薦システムの学習

Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning

October 23, 2025
著者: Yaochen Zhu, Harald Steck, Dawen Liang, Yinhan He, Jundong Li, Nathan Kallus
cs.AI

要旨

大規模言語モデル(LLM)は、ユーザーが会話を通じて嗜好を表現し推薦を受け取ることを可能にすることで、推薦システムのパラダイムを再構築しつつある。しかし、LLMを推薦タスクに適合させることは依然として課題である:事前学習済みLLMはカタログ外アイテムを生成したり、要求された出力形式に違反したり、生成リストの末尾に向かってランキング品質が急激に劣化したりする。これに対処するため、本論文ではLLMベースの対話型推薦システムのエンドツーエンド学習のための2段階フレームワーク「ConvRec-R1」を提案する。第1段階では、Remap-Reflect-Adjustパイプラインを用いて行動クローニングデータセットを構築し、強力なブラックボックスLLMから高品質でカタログに基づいたデモンストレーションを生成して強化学習訓練をウォームスタートする。第2段階では、ランク形式の出力を伴うタスクに特化して、グループ相対方策最適化(GRPO)を原理的に拡張した「Rank-GRPO」を提案する。Rank-GRPOは推薦リスト内の各順位を単位(トークン単位では細かすぎ、シーケンス単位では粗すぎる)として扱い、非因果的な信用割り当てを除去するために報酬を再定義し、順位ごとのトークン確率の幾何平均に基づく順位レベルの重要度比率を導入して方策更新を安定化させる。公開データセットReddit-v2を用いた実験により、ConvRec-R1はGRPOスタイルのベースラインよりも高速に収束し、より高いRecallとNDCGを達成することを示す。コードとデータセットはhttps://github.com/yaochenzhu/Rank-GRPO で公開されている。
English
Large language models (LLMs) are reshaping the recommender system paradigm by enabling users to express preferences and receive recommendations through conversations. Yet, aligning LLMs to the recommendation task remains challenging: pretrained LLMs often generate out-of-catalog items, violate required output formats, and their ranking quality degrades sharply toward the end of the generated list. To this end, we propose ConvRec-R1, a two-stage framework for end-to-end training of LLM-based conversational recommender systems. In Stage 1, we construct a behavioral-cloning dataset with a Remap-Reflect-Adjust pipeline, which produces high-quality, catalog-grounded demonstrations from powerful blackbox LLMs to warm-start the RL training. In Stage 2, we propose Rank-GRPO, a principled extension of group relative policy optimization (GRPO) tailored to tasks with rank-style outputs. Rank-GRPO treats each rank in the recommendation list as the unit instead of token (too fine-grained) or sequence (too coarse), redefining rewards to remove non-causal credit assignment and introducing a rank-level importance ratio based on the geometric mean of rank-wise token probabilities to stabilize policy updates. Experiments on the public Reddit-v2 dataset show that ConvRec-R1 converges faster and achieves higher Recall and NDCG than GRPO-style baselines. Code and datasets are released at https://github.com/yaochenzhu/Rank-GRPO.
PDF42December 2, 2025