ProRL: Effectief Reinforcement Learning voor Proactieve Aanbeveling via Gecorrigeerde Policy Gradient Schatting

Samenvatting

Proactieve Aanbevelingssystemen (PRS) hebben als doel om de verschuiving van gebruikersvoorkeuren richting doelitems te sturen door paden van tussenliggende aanbevelingen te genereren. Reinforcement learning (RL) biedt een principieel raamwerk voor het optimaliseren van dergelijke sequentiële beslissingstaken, omdat padbeloningen zowel kortetermijnacceptatie als langetermijnsturingseffectiviteit op natuurlijke wijze kunnen vastleggen. Het naïef toepassen van policy gradients op PRS leidt echter tot gebrekkige gradientschatting. We identificeren twee tekortkomingen: (1) padniveau-beloningen worden ontleed in stapsgewijze beloningen met een positief gemiddelde, wat een lengteafhankelijke vertekening creëert waardoor gradients padverlenging begunstigen boven zinvolle exploratie; (2) het wegen van elke stap met de volledige padniveau-beloning negeert de ontledingsstructuur, wat leidt tot hoge gradientvariantie. Om deze twee tekortkomingen te verhelpen, stellen we een effectief RL-raamwerk ProRL voor met twee nieuwe mechanismen voor proactieve aanbeveling. Ten eerste trekt Stapsgewijze Beloningscentrering verwachte beloningen af om lengteafhankelijke vertekening te neutraliseren, wat ervoor zorgt dat padverlenging een verwacht gradientsignaal van nul oplevert. Ten tweede maakt Positiespecifieke Voordeelschatting gebruik van de beloningsontledingsstructuur om stapafhankelijke baselines te berekenen, waardoor de gradientvariantie wordt verminderd. Samen leveren deze mechanismen policy gradients op die precies gericht zijn op padkwaliteit. Onze experimenten op drie real-world datasets tonen aan dat ProRL significant beter presteert dan state-of-the-art PRS. Onze code is beschikbaar op https://github.com/hongruhou89/ProRL.

English

Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendations. Reinforcement learning (RL) provides a principled framework for optimizing such sequential decision tasks, as path rewards can naturally capture both short-term acceptance and long-term guidance effectiveness. However, naively applying policy gradients to PRS results in deficient gradient estimation. We identify two deficiencies: (1) path-level rewards decompose into step-level rewards with positive mean, creating a length-dependent bias that causes gradients to favor path extension over meaningful exploration; (2) weighting each step by the entire path-level reward ignores the decomposition structure, leading to high gradient variance. To rectify these two deficiencies, we propose an effective RL framework ProRL with two novel mechanisms for proactive recommendation. First, Stepwise Reward Centering subtracts expected rewards to neutralize length-dependent bias, ensuring that path extension yields zero expected gradient signal. Second, Position-Specific Advantage Estimation leverages the reward decomposition structure to compute step-dependent baselines, reducing gradient variance. Together, these mechanisms yield policy gradients that precisely target path quality. Our experiments on three real-world datasets demonstrate that ProRL significantly outperforms state-of-the-art PRSs. Our code is available at https://github.com/hongruhou89/ProRL.