ProRL: Aprendizagem por Reforço Eficaz para Recomendação Proativa via Estimativa de Gradiente de Política Retificada

Resumo

Sistemas de Recomendação Proativos (PRSs) visam guiar a mudança de preferência do usuário em direção a itens-alvo, gerando caminhos de recomendações intermediárias. A aprendizagem por reforço (RL) fornece um arcabouço fundamentado para otimizar tais tarefas de decisão sequencial, pois as recompensas dos caminhos podem capturar naturalmente tanto a aceitação de curto prazo quanto a eficácia de orientação de longo prazo. No entanto, aplicar ingenuamente gradientes de política a PRSs resulta em estimação deficiente de gradientes. Identificamos duas deficiências: (1) recompensas em nível de caminho se decompõem em recompensas em nível de passo com média positiva, criando um viés dependente do comprimento que faz com que os gradientes favoreçam a extensão do caminho em detrimento da exploração significativa; (2) ponderar cada passo por toda a recompensa do caminho ignora a estrutura de decomposição, levando a alta variância do gradiente. Para corrigir essas duas deficiências, propomos um arcabouço eficaz de RL, ProRL, com dois mecanismos inovadores para recomendação proativa. Primeiro, a Centralização de Recompensa por Etapas subtrai as recompensas esperadas para neutralizar o viés dependente do comprimento, garantindo que a extensão do caminho produza sinal de gradiente esperado zero. Segundo, a Estimação de Vantagem Específica por Posição aproveita a estrutura de decomposição da recompensa para calcular linhas de base dependentes do passo, reduzindo a variância do gradiente. Juntos, esses mecanismos produzem gradientes de política que visam precisamente a qualidade do caminho. Nossos experimentos em três conjuntos de dados reais demonstram que o ProRL supera significativamente os PRSs do estado da arte. Nosso código está disponível em https://github.com/hongruhou89/ProRL.

English

Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendations. Reinforcement learning (RL) provides a principled framework for optimizing such sequential decision tasks, as path rewards can naturally capture both short-term acceptance and long-term guidance effectiveness. However, naively applying policy gradients to PRS results in deficient gradient estimation. We identify two deficiencies: (1) path-level rewards decompose into step-level rewards with positive mean, creating a length-dependent bias that causes gradients to favor path extension over meaningful exploration; (2) weighting each step by the entire path-level reward ignores the decomposition structure, leading to high gradient variance. To rectify these two deficiencies, we propose an effective RL framework ProRL with two novel mechanisms for proactive recommendation. First, Stepwise Reward Centering subtracts expected rewards to neutralize length-dependent bias, ensuring that path extension yields zero expected gradient signal. Second, Position-Specific Advantage Estimation leverages the reward decomposition structure to compute step-dependent baselines, reducing gradient variance. Together, these mechanisms yield policy gradients that precisely target path quality. Our experiments on three real-world datasets demonstrate that ProRL significantly outperforms state-of-the-art PRSs. Our code is available at https://github.com/hongruhou89/ProRL.