ProRL : Apprentissage par renforcement efficace pour la recommandation proactive via l'estimation corrigée du gradient de politique

Résumé

Les systèmes de recommandation proactifs (PRS) visent à guider le déplacement des préférences des utilisateurs vers des éléments cibles en générant des chemins de recommandations intermédiaires. L'apprentissage par renforcement (RL) offre un cadre théorique pour optimiser de telles tâches de décision séquentielle, car les récompenses de chemin peuvent naturellement capturer à la fois l'acceptation à court terme et l'efficacité du guidage à long terme. Cependant, l'application naïve des gradients de politique aux PRS conduit à une estimation déficiente des gradients. Nous identifions deux déficiences : (1) les récompenses au niveau du chemin se décomposent en récompenses au niveau des étapes avec une moyenne positive, créant un biais dépendant de la longueur qui pousse les gradients à favoriser l'extension du chemin plutôt qu'une exploration significative ; (2) pondérer chaque étape par la récompense totale du chemin ignore la structure de décomposition, ce qui entraîne une variance élevée des gradients. Pour remédier à ces deux déficiences, nous proposons un cadre RL efficace, ProRL, avec deux mécanismes novateurs pour la recommandation proactive. Premièrement, le centrage des récompenses par étape (Stepwise Reward Centering) soustrait les récompenses attendues pour neutraliser le biais dépendant de la longueur, garantissant que l'extension du chemin produit un signal de gradient attendu nul. Deuxièmement, l'estimation de l'avantage spécifique à la position (Position-Specific Advantage Estimation) exploite la structure de décomposition des récompenses pour calculer des lignes de base dépendantes de l'étape, réduisant ainsi la variance des gradients. Ensemble, ces mécanismes produisent des gradients de politique qui ciblent précisément la qualité du chemin. Nos expériences sur trois ensembles de données réelles démontrent que ProRL surpasse significativement les PRS de pointe. Notre code est disponible à l'adresse https://github.com/hongruhou89/ProRL.

English

Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendations. Reinforcement learning (RL) provides a principled framework for optimizing such sequential decision tasks, as path rewards can naturally capture both short-term acceptance and long-term guidance effectiveness. However, naively applying policy gradients to PRS results in deficient gradient estimation. We identify two deficiencies: (1) path-level rewards decompose into step-level rewards with positive mean, creating a length-dependent bias that causes gradients to favor path extension over meaningful exploration; (2) weighting each step by the entire path-level reward ignores the decomposition structure, leading to high gradient variance. To rectify these two deficiencies, we propose an effective RL framework ProRL with two novel mechanisms for proactive recommendation. First, Stepwise Reward Centering subtracts expected rewards to neutralize length-dependent bias, ensuring that path extension yields zero expected gradient signal. Second, Position-Specific Advantage Estimation leverages the reward decomposition structure to compute step-dependent baselines, reducing gradient variance. Together, these mechanisms yield policy gradients that precisely target path quality. Our experiments on three real-world datasets demonstrate that ProRL significantly outperforms state-of-the-art PRSs. Our code is available at https://github.com/hongruhou89/ProRL.