Rank-GRPO : Entraînement de systèmes de recommandation conversationnels basés sur des LLM avec l'apprentissage par renforcement
Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning
October 23, 2025
papers.authors: Yaochen Zhu, Harald Steck, Dawen Liang, Yinhan He, Jundong Li, Nathan Kallus
cs.AI
papers.abstract
Les grands modèles de langage (LLM) redéfinissent le paradigme des systèmes de recommandation en permettant aux utilisateurs d'exprimer leurs préférences et de recevoir des suggestions par le biais de conversations. Cependant, l'alignement des LLM sur la tâche de recommandation reste problématique : les LLM pré-entraînés génèrent souvent des éléments hors catalogue, violent les formats de sortie requis, et leur qualité de classement se dégrade considérablement vers la fin de la liste générée. Pour pallier cela, nous proposons ConvRec-R1, un cadre en deux étapes pour l'entraînement de bout en bout de systèmes de recommandation conversationnels basés sur LLM. Dans l'Étape 1, nous construisons un jeu de données de clonage comportemental avec un pipeline Remap-Reflect-Adjust, qui produit des démonstrations de haute qualité, ancrées dans le catalogue, à partir de LLM boîte noire puissants pour amorcer l'entraînement par apprentissage par renforcement (RL). Dans l'Étape 2, nous proposons Rank-GRPO, une extension principielle de l'optimisation de politique relative par groupe (GRPO) adaptée aux tâches avec des sorties de type classement. Rank-GRPO traite chaque rang dans la liste de recommandation comme unité au lieu du jeton (trop granulaire) ou de la séquence (trop grossier), redéfinissant les récompenses pour supprimer l'attribution de crédit non causale et introduisant un ratio d'importance au niveau du rang basé sur la moyenne géométrique des probabilités de jetons par rang pour stabiliser les mises à jour de la politique. Les expériences sur le jeu de données public Reddit-v2 montrent que ConvRec-R1 converge plus rapidement et atteint des Recall et NDCG plus élevés que les méthodes de référence de type GRPO. Le code et les jeux de données sont disponibles à l'adresse https://github.com/yaochenzhu/Rank-GRPO.
English
Large language models (LLMs) are reshaping the recommender system paradigm by
enabling users to express preferences and receive recommendations through
conversations. Yet, aligning LLMs to the recommendation task remains
challenging: pretrained LLMs often generate out-of-catalog items, violate
required output formats, and their ranking quality degrades sharply toward the
end of the generated list. To this end, we propose ConvRec-R1, a two-stage
framework for end-to-end training of LLM-based conversational recommender
systems. In Stage 1, we construct a behavioral-cloning dataset with a
Remap-Reflect-Adjust pipeline, which produces high-quality, catalog-grounded
demonstrations from powerful blackbox LLMs to warm-start the RL training. In
Stage 2, we propose Rank-GRPO, a principled extension of group relative policy
optimization (GRPO) tailored to tasks with rank-style outputs. Rank-GRPO treats
each rank in the recommendation list as the unit instead of token (too
fine-grained) or sequence (too coarse), redefining rewards to remove non-causal
credit assignment and introducing a rank-level importance ratio based on the
geometric mean of rank-wise token probabilities to stabilize policy updates.
Experiments on the public Reddit-v2 dataset show that ConvRec-R1 converges
faster and achieves higher Recall and NDCG than GRPO-style baselines. Code and
datasets are released at https://github.com/yaochenzhu/Rank-GRPO.