Rank-GRPO : Entraînement de systèmes de recommandation conversationnels basés sur des LLM avec l'apprentissage par renforcement

papers.abstract

Les grands modèles de langage (LLM) redéfinissent le paradigme des systèmes de recommandation en permettant aux utilisateurs d'exprimer leurs préférences et de recevoir des suggestions par le biais de conversations. Cependant, l'alignement des LLM sur la tâche de recommandation reste problématique : les LLM pré-entraînés génèrent souvent des éléments hors catalogue, violent les formats de sortie requis, et leur qualité de classement se dégrade considérablement vers la fin de la liste générée. Pour pallier cela, nous proposons ConvRec-R1, un cadre en deux étapes pour l'entraînement de bout en bout de systèmes de recommandation conversationnels basés sur LLM. Dans l'Étape 1, nous construisons un jeu de données de clonage comportemental avec un pipeline Remap-Reflect-Adjust, qui produit des démonstrations de haute qualité, ancrées dans le catalogue, à partir de LLM boîte noire puissants pour amorcer l'entraînement par apprentissage par renforcement (RL). Dans l'Étape 2, nous proposons Rank-GRPO, une extension principielle de l'optimisation de politique relative par groupe (GRPO) adaptée aux tâches avec des sorties de type classement. Rank-GRPO traite chaque rang dans la liste de recommandation comme unité au lieu du jeton (trop granulaire) ou de la séquence (trop grossier), redéfinissant les récompenses pour supprimer l'attribution de crédit non causale et introduisant un ratio d'importance au niveau du rang basé sur la moyenne géométrique des probabilités de jetons par rang pour stabiliser les mises à jour de la politique. Les expériences sur le jeu de données public Reddit-v2 montrent que ConvRec-R1 converge plus rapidement et atteint des Recall et NDCG plus élevés que les méthodes de référence de type GRPO. Le code et les jeux de données sont disponibles à l'adresse https://github.com/yaochenzhu/Rank-GRPO.

English

Large language models (LLMs) are reshaping the recommender system paradigm by enabling users to express preferences and receive recommendations through conversations. Yet, aligning LLMs to the recommendation task remains challenging: pretrained LLMs often generate out-of-catalog items, violate required output formats, and their ranking quality degrades sharply toward the end of the generated list. To this end, we propose ConvRec-R1, a two-stage framework for end-to-end training of LLM-based conversational recommender systems. In Stage 1, we construct a behavioral-cloning dataset with a Remap-Reflect-Adjust pipeline, which produces high-quality, catalog-grounded demonstrations from powerful blackbox LLMs to warm-start the RL training. In Stage 2, we propose Rank-GRPO, a principled extension of group relative policy optimization (GRPO) tailored to tasks with rank-style outputs. Rank-GRPO treats each rank in the recommendation list as the unit instead of token (too fine-grained) or sequence (too coarse), redefining rewards to remove non-causal credit assignment and introducing a rank-level importance ratio based on the geometric mean of rank-wise token probabilities to stabilize policy updates. Experiments on the public Reddit-v2 dataset show that ConvRec-R1 converges faster and achieves higher Recall and NDCG than GRPO-style baselines. Code and datasets are released at https://github.com/yaochenzhu/Rank-GRPO.

Rank-GRPO : Entraînement de systèmes de recommandation conversationnels basés sur des LLM avec l'apprentissage par renforcement

Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning

papers.abstract

Support