ProRL: Effektives Verstärkungslernen für proaktive Empfehlung mittels rektifizierter Policy-Gradient-Schätzung

Zusammenfassung

Proaktive Empfehlungssysteme (PRS) zielen darauf ab, die Benutzerpräferenzen in Richtung Zielobjekte zu lenken, indem sie Pfade aus Zwischenempfehlungen generieren. Reinforcement Learning (RL) bietet einen grundlegenden Rahmen für die Optimierung solcher sequenziellen Entscheidungsaufgaben, da Pfadbelohnungen sowohl die kurzfristige Akzeptanz als auch die langfristige Lenkungseffektivität natürlich erfassen können. Die naive Anwendung von Policy-Gradienten auf PRS führt jedoch zu einer unzureichenden Gradientenschätzung. Wir identifizieren zwei Mängel: (1) Pfad-Ebene-Belohnungen zerlegen sich in Schritt-Ebene-Belohnungen mit positivem Mittelwert, was einen längenabhängigen Bias erzeugt, der dazu führt, dass Gradienten die Pfadverlängerung gegenüber sinnvoller Exploration bevorzugen; (2) die Gewichtung jedes Schrittes mit der gesamten Pfad-Ebene-Belohnung ignoriert die Zerlegungsstruktur, was zu einer hohen Gradientenvarianz führt. Um diese beiden Mängel zu beheben, schlagen wir einen effektiven RL-Rahmen namens ProRL mit zwei neuartigen Mechanismen für proaktive Empfehlungen vor. Erstens subtrahiert die schrittweise Belohnungszentrierung (Stepwise Reward Centering) erwartete Belohnungen, um den längenabhängigen Bias zu neutralisieren, und stellt sicher, dass die Pfadverlängerung kein erwartetes Gradientensignal liefert. Zweitens nutzt die positionsspezifische Advantage-Schätzung (Position-Specific Advantage Estimation) die Belohnungszerlegungsstruktur, um schrittabhängige Baselines zu berechnen, wodurch die Gradientenvarianz reduziert wird. Zusammen ergeben diese Mechanismen Policy-Gradienten, die präzise auf die Pfadqualität abzielen. Unsere Experimente mit drei realen Datensätzen zeigen, dass ProRL deutlich besser abschneidet als die aktuellsten PRS. Unser Code ist verfügbar unter https://github.com/hongruhou89/ProRL.

English

Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendations. Reinforcement learning (RL) provides a principled framework for optimizing such sequential decision tasks, as path rewards can naturally capture both short-term acceptance and long-term guidance effectiveness. However, naively applying policy gradients to PRS results in deficient gradient estimation. We identify two deficiencies: (1) path-level rewards decompose into step-level rewards with positive mean, creating a length-dependent bias that causes gradients to favor path extension over meaningful exploration; (2) weighting each step by the entire path-level reward ignores the decomposition structure, leading to high gradient variance. To rectify these two deficiencies, we propose an effective RL framework ProRL with two novel mechanisms for proactive recommendation. First, Stepwise Reward Centering subtracts expected rewards to neutralize length-dependent bias, ensuring that path extension yields zero expected gradient signal. Second, Position-Specific Advantage Estimation leverages the reward decomposition structure to compute step-dependent baselines, reducing gradient variance. Together, these mechanisms yield policy gradients that precisely target path quality. Our experiments on three real-world datasets demonstrate that ProRL significantly outperforms state-of-the-art PRSs. Our code is available at https://github.com/hongruhou89/ProRL.