ProRL: Aprendizaje por Refuerzo Efectivo para Recomendación Proactiva mediante Estimación de Gradiente de Política Rectificada

Resumen

Los Sistemas de Recomendación Proactivos (SRP) tienen como objetivo guiar el cambio de preferencias del usuario hacia ítems objetivo mediante la generación de trayectorias de recomendaciones intermedias. El aprendizaje por refuerzo (RL, por sus siglas en inglés) proporciona un marco fundamentado para optimizar dichas tareas de decisión secuencial, ya que las recompensas de las trayectorias pueden capturar de forma natural tanto la aceptación a corto plazo como la eficacia de la guía a largo plazo. Sin embargo, la aplicación ingenua de gradientes de política a los SRP resulta en una estimación deficiente del gradiente. Identificamos dos deficiencias: (1) las recompensas a nivel de trayectoria se descomponen en recompensas a nivel de paso con media positiva, creando un sesgo dependiente de la longitud que hace que los gradientes favorezcan la extensión de la trayectoria sobre una exploración significativa; (2) ponderar cada paso con la recompensa completa de la trayectoria ignora la estructura de descomposición, lo que conduce a una alta varianza del gradiente. Para corregir estas dos deficiencias, proponemos un marco efectivo de RL, ProRL, con dos mecanismos novedosos para la recomendación proactiva. Primero, el Centrado de Recompensa por Pasos resta las recompensas esperadas para neutralizar el sesgo dependiente de la longitud, asegurando que la extensión de la trayectoria produzca una señal de gradiente esperada nula. Segundo, la Estimación de Ventaja Específica de la Posición aprovecha la estructura de descomposición de la recompensa para calcular líneas base dependientes del paso, reduciendo la varianza del gradiente. En conjunto, estos mecanismos producen gradientes de política que se dirigen con precisión a la calidad de la trayectoria. Nuestros experimentos en tres conjuntos de datos del mundo real demuestran que ProRL supera significativamente a los SRP de última generación. Nuestro código está disponible en https://github.com/hongruhou89/ProRL.

English

Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendations. Reinforcement learning (RL) provides a principled framework for optimizing such sequential decision tasks, as path rewards can naturally capture both short-term acceptance and long-term guidance effectiveness. However, naively applying policy gradients to PRS results in deficient gradient estimation. We identify two deficiencies: (1) path-level rewards decompose into step-level rewards with positive mean, creating a length-dependent bias that causes gradients to favor path extension over meaningful exploration; (2) weighting each step by the entire path-level reward ignores the decomposition structure, leading to high gradient variance. To rectify these two deficiencies, we propose an effective RL framework ProRL with two novel mechanisms for proactive recommendation. First, Stepwise Reward Centering subtracts expected rewards to neutralize length-dependent bias, ensuring that path extension yields zero expected gradient signal. Second, Position-Specific Advantage Estimation leverages the reward decomposition structure to compute step-dependent baselines, reducing gradient variance. Together, these mechanisms yield policy gradients that precisely target path quality. Our experiments on three real-world datasets demonstrate that ProRL significantly outperforms state-of-the-art PRSs. Our code is available at https://github.com/hongruhou89/ProRL.