ChatPaper.aiChatPaper

R^2ec : Vers des modèles de recommandation à grande échelle avec raisonnement

R^2ec: Towards Large Recommender Models with Reasoning

May 22, 2025
Auteurs: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
cs.AI

Résumé

Les grands modèles de recommandation ont étendu les LLM (Large Language Models) en tant que puissants systèmes de recommandation via l'encodage ou la génération d'éléments, et les récentes avancées dans le raisonnement des LLM motivent simultanément l'exploration du raisonnement dans les systèmes de recommandation. Les études actuelles positionnent généralement les LLM comme des modules de raisonnement externes pour fournir une pensée auxiliaire afin d'augmenter les pipelines de recommandation conventionnels. Cependant, ces conceptions découplées sont limitées par un coût en ressources significatif et une optimisation conjointe sous-optimale. Pour résoudre ces problèmes, nous proposons \name, un modèle unifié de recommandation de grande taille doté de capacités de raisonnement intrinsèques. Initialement, nous reconceptualisons l'architecture du modèle pour faciliter un raisonnement entrelacé et une recommandation dans le processus autorégressif. Par la suite, nous proposons RecPO, un cadre d'apprentissage par renforcement correspondant qui optimise \name\ à la fois pour les capacités de raisonnement et de recommandation simultanément dans une seule mise à jour de politique ; RecPO introduit un schéma de récompense fusionné qui exploite uniquement les étiquettes de recommandation pour simuler la capacité de raisonnement, éliminant ainsi la dépendance aux annotations spécialisées de raisonnement. Les expériences sur trois ensembles de données avec diverses bases de référence vérifient l'efficacité de \name, montrant des améliorations relatives de 68,67 % en Hit@5 et de 45,21 % en NDCG@20. Le code est disponible à l'adresse https://github.com/YRYangang/RRec.
English
Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.
PDF22June 4, 2025