ChatPaper.aiChatPaper

ProRL: 修正政策勾配推定によるプロアクティブ推薦のための効果的な強化学習

ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

May 27, 2026
著者: Hongru Hou, Tiehua Mei, Denghui Geng, Jinhui Huang, Ao Xu, Hengrui Chen, Jiaqing Liang, Deqing Yang
cs.AI

要旨

能動的推薦システム(PRS)は、中間推薦の経路を生成することで、ユーザーの嗜好推移を目標アイテムへと誘導することを目的としている。強化学習(RL)は、経路報酬が短期的な受容と長期的な誘導効果の両方を自然に捉えられるため、このような逐次的意思決定タスクを最適化するための原理的な枠組みを提供する。しかしながら、PRSに方策勾配法を単純に適用すると、勾配推定が不十分になる。我々は以下の2つの欠点を特定した:(1) 経路レベルの報酬が正の平均を持つステップレベルの報酬に分解されることで、長さ依存バイアスが生じ、勾配が意味のある探索よりも経路延長を優先させる。(2) 各ステップを経路レベルの報酬全体で重み付けすると、分解構造が無視され、勾配の分散が大きくなる。これらの2つの欠点を是正するために、我々は能動的推薦のための2つの新しいメカニズムを備えた効果的なRLフレームワークProRLを提案する。第一に、Stepwise Reward Centeringが期待報酬を差し引くことで長さ依存バイアスを中和し、経路延長が期待勾配信号をゼロにすることを保証する。第二に、Position-Specific Advantage Estimationが報酬の分解構造を活用してステップ依存のベースラインを計算し、勾配分散を低減する。これらのメカニズムにより、経路品質を正確にターゲットとする方策勾配が得られる。3つの実世界データセットを用いた実験により、ProRLが最先端のPRSを大幅に上回ることを実証した。コードはhttps://github.com/hongruhou89/ProRLで公開している。
English
Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendations. Reinforcement learning (RL) provides a principled framework for optimizing such sequential decision tasks, as path rewards can naturally capture both short-term acceptance and long-term guidance effectiveness. However, naively applying policy gradients to PRS results in deficient gradient estimation. We identify two deficiencies: (1) path-level rewards decompose into step-level rewards with positive mean, creating a length-dependent bias that causes gradients to favor path extension over meaningful exploration; (2) weighting each step by the entire path-level reward ignores the decomposition structure, leading to high gradient variance. To rectify these two deficiencies, we propose an effective RL framework ProRL with two novel mechanisms for proactive recommendation. First, Stepwise Reward Centering subtracts expected rewards to neutralize length-dependent bias, ensuring that path extension yields zero expected gradient signal. Second, Position-Specific Advantage Estimation leverages the reward decomposition structure to compute step-dependent baselines, reducing gradient variance. Together, these mechanisms yield policy gradients that precisely target path quality. Our experiments on three real-world datasets demonstrate that ProRL significantly outperforms state-of-the-art PRSs. Our code is available at https://github.com/hongruhou89/ProRL.