R^2ec : Vers des modèles de recommandation à grande échelle avec raisonnement
R^2ec: Towards Large Recommender Models with Reasoning
May 22, 2025
Auteurs: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
cs.AI
Résumé
Les grands modèles de recommandation ont étendu les LLM (Large Language Models) en tant que puissants systèmes de recommandation via l'encodage ou la génération d'éléments, et les récentes avancées dans le raisonnement des LLM motivent simultanément l'exploration du raisonnement dans les systèmes de recommandation. Les études actuelles positionnent généralement les LLM comme des modules de raisonnement externes pour fournir une pensée auxiliaire afin d'augmenter les pipelines de recommandation conventionnels. Cependant, ces conceptions découplées sont limitées par un coût en ressources significatif et une optimisation conjointe sous-optimale. Pour résoudre ces problèmes, nous proposons \name, un modèle unifié de recommandation de grande taille doté de capacités de raisonnement intrinsèques. Initialement, nous reconceptualisons l'architecture du modèle pour faciliter un raisonnement entrelacé et une recommandation dans le processus autorégressif. Par la suite, nous proposons RecPO, un cadre d'apprentissage par renforcement correspondant qui optimise \name\ à la fois pour les capacités de raisonnement et de recommandation simultanément dans une seule mise à jour de politique ; RecPO introduit un schéma de récompense fusionné qui exploite uniquement les étiquettes de recommandation pour simuler la capacité de raisonnement, éliminant ainsi la dépendance aux annotations spécialisées de raisonnement. Les expériences sur trois ensembles de données avec diverses bases de référence vérifient l'efficacité de \name, montrant des améliorations relatives de 68,67 % en Hit@5 et de 45,21 % en NDCG@20. Le code est disponible à l'adresse https://github.com/YRYangang/RRec.
English
Large recommender models have extended LLMs as powerful recommenders via
encoding or item generation, and recent breakthroughs in LLM reasoning
synchronously motivate the exploration of reasoning in recommendation. Current
studies usually position LLMs as external reasoning modules to yield auxiliary
thought for augmenting conventional recommendation pipelines. However, such
decoupled designs are limited in significant resource cost and suboptimal joint
optimization. To address these issues, we propose \name, a unified large
recommender model with intrinsic reasoning capabilities. Initially, we
reconceptualize the model architecture to facilitate interleaved reasoning and
recommendation in the autoregressive process. Subsequently, we propose RecPO, a
corresponding reinforcement learning framework that optimizes \name\ both the
reasoning and recommendation capabilities simultaneously in a single policy
update; RecPO introduces a fused reward scheme that solely leverages
recommendation labels to simulate the reasoning capability, eliminating
dependency on specialized reasoning annotations. Experiments on three datasets
with various baselines verify the effectiveness of \name, showing relative
improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at
https://github.com/YRYangang/RRec.