R^2ec: Op weg naar grote aanbevelingsmodellen met redeneervermogen
R^2ec: Towards Large Recommender Models with Reasoning
May 22, 2025
Auteurs: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
cs.AI
Samenvatting
Grote aanbevelingsmodellen hebben LLM's uitgebreid als krachtige aanbevelers via codering of itemgeneratie, en recente doorbraken in LLM-redenering motiveren tegelijkertijd de verkenning van redenering in aanbevelingen. Huidige studies positioneren LLM's meestal als externe redeneermodules om aanvullende gedachten te genereren voor het versterken van conventionele aanbevelingspijplijnen. Dergelijke ontkoppelde ontwerpen zijn echter beperkt in aanzienlijke resourcekosten en suboptimale gezamenlijke optimalisatie. Om deze problemen aan te pakken, stellen we \name voor, een verenigd groot aanbevelingsmodel met intrinsieke redeneercapaciteiten. Eerst herconceptualiseren we de modelarchitectuur om interleaved redenering en aanbevelingen in het autoregressieve proces te vergemakkelijken. Vervolgens stellen we RecPO voor, een bijbehorend reinforcement learning-framework dat \name\ zowel de redeneer- als aanbevelingscapaciteiten tegelijkertijd optimaliseert in een enkele policy-update; RecPO introduceert een gefuseerd beloningsschema dat uitsluitend aanbevelingslabels gebruikt om de redeneercapaciteit te simuleren, waardoor de afhankelijkheid van gespecialiseerde redeneringsannotaties wordt geëlimineerd. Experimenten op drie datasets met verschillende baselines verifiëren de effectiviteit van \name, met relatieve verbeteringen van 68,67\% in Hit@5 en 45,21\% in NDCG@20. Code beschikbaar op https://github.com/YRYangang/RRec.
English
Large recommender models have extended LLMs as powerful recommenders via
encoding or item generation, and recent breakthroughs in LLM reasoning
synchronously motivate the exploration of reasoning in recommendation. Current
studies usually position LLMs as external reasoning modules to yield auxiliary
thought for augmenting conventional recommendation pipelines. However, such
decoupled designs are limited in significant resource cost and suboptimal joint
optimization. To address these issues, we propose \name, a unified large
recommender model with intrinsic reasoning capabilities. Initially, we
reconceptualize the model architecture to facilitate interleaved reasoning and
recommendation in the autoregressive process. Subsequently, we propose RecPO, a
corresponding reinforcement learning framework that optimizes \name\ both the
reasoning and recommendation capabilities simultaneously in a single policy
update; RecPO introduces a fused reward scheme that solely leverages
recommendation labels to simulate the reasoning capability, eliminating
dependency on specialized reasoning annotations. Experiments on three datasets
with various baselines verify the effectiveness of \name, showing relative
improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at
https://github.com/YRYangang/RRec.