ProRL: Эффективное обучение с подкреплением для проактивной рекомендации с помощью скорректированной оценки градиента политики

Аннотация

Проактивные рекомендательные системы (PRS) стремятся направлять изменение предпочтений пользователя в сторону целевых элементов, генерируя пути промежуточных рекомендаций. Обучение с подкреплением (RL) предоставляет принципиальную основу для оптимизации таких последовательных задач принятия решений, поскольку вознаграждения на пути могут естественным образом учитывать как краткосрочное принятие, так и долгосрочную эффективность направления. Однако наивное применение градиентов политики к PRS приводит к некачественной оценке градиента. Мы выявляем два недостатка: (1) вознаграждения на уровне пути разлагаются на вознаграждения на уровне шага с положительным средним, что создаёт смещение, зависящее от длины, из-за которого градиенты отдают предпочтение удлинению пути, а не осмысленному исследованию; (2) взвешивание каждого шага с помощью всего вознаграждения пути игнорирует структуру разложения, что приводит к высокой дисперсии градиента. Для устранения этих двух недостатков мы предлагаем эффективную структуру RL под названием ProRL с двумя новыми механизмами для проактивной рекомендации. Во-первых, центрирование вознаграждений по шагам (Stepwise Reward Centering) вычитает ожидаемые вознаграждения для нейтрализации смещения, зависящего от длины, гарантируя, что удлинение пути даёт нулевой ожидаемый сигнал градиента. Во-вторых, оценка преимущества, специфичного для позиции (Position-Specific Advantage Estimation), использует структуру разложения вознаграждений для вычисления зависящих от шага базовых линий, снижая дисперсию градиента. Вместе эти механизмы обеспечивают градиенты политики, которые точно нацелены на качество пути. Наши эксперименты на трёх реальных наборах данных демонстрируют, что ProRL значительно превосходит современные PRS. Наш код доступен по адресу https://github.com/hongruhou89/ProRL.

English

Proactive Recommender Systems (PRSs) aim to guide user preference shift toward target items by generating paths of intermediate recommendations. Reinforcement learning (RL) provides a principled framework for optimizing such sequential decision tasks, as path rewards can naturally capture both short-term acceptance and long-term guidance effectiveness. However, naively applying policy gradients to PRS results in deficient gradient estimation. We identify two deficiencies: (1) path-level rewards decompose into step-level rewards with positive mean, creating a length-dependent bias that causes gradients to favor path extension over meaningful exploration; (2) weighting each step by the entire path-level reward ignores the decomposition structure, leading to high gradient variance. To rectify these two deficiencies, we propose an effective RL framework ProRL with two novel mechanisms for proactive recommendation. First, Stepwise Reward Centering subtracts expected rewards to neutralize length-dependent bias, ensuring that path extension yields zero expected gradient signal. Second, Position-Specific Advantage Estimation leverages the reward decomposition structure to compute step-dependent baselines, reducing gradient variance. Together, these mechanisms yield policy gradients that precisely target path quality. Our experiments on three real-world datasets demonstrate that ProRL significantly outperforms state-of-the-art PRSs. Our code is available at https://github.com/hongruhou89/ProRL.