R^2ec: Op weg naar grote aanbevelingsmodellen met redeneervermogen

Samenvatting

Grote aanbevelingsmodellen hebben LLM's uitgebreid als krachtige aanbevelers via codering of itemgeneratie, en recente doorbraken in LLM-redenering motiveren tegelijkertijd de verkenning van redenering in aanbevelingen. Huidige studies positioneren LLM's meestal als externe redeneermodules om aanvullende gedachten te genereren voor het versterken van conventionele aanbevelingspijplijnen. Dergelijke ontkoppelde ontwerpen zijn echter beperkt in aanzienlijke resourcekosten en suboptimale gezamenlijke optimalisatie. Om deze problemen aan te pakken, stellen we \name voor, een verenigd groot aanbevelingsmodel met intrinsieke redeneercapaciteiten. Eerst herconceptualiseren we de modelarchitectuur om interleaved redenering en aanbevelingen in het autoregressieve proces te vergemakkelijken. Vervolgens stellen we RecPO voor, een bijbehorend reinforcement learning-framework dat \name\ zowel de redeneer- als aanbevelingscapaciteiten tegelijkertijd optimaliseert in een enkele policy-update; RecPO introduceert een gefuseerd beloningsschema dat uitsluitend aanbevelingslabels gebruikt om de redeneercapaciteit te simuleren, waardoor de afhankelijkheid van gespecialiseerde redeneringsannotaties wordt geëlimineerd. Experimenten op drie datasets met verschillende baselines verifiëren de effectiviteit van \name, met relatieve verbeteringen van 68,67\% in Hit@5 en 45,21\% in NDCG@20. Code beschikbaar op https://github.com/YRYangang/RRec.

English

Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.

R^2ec: Op weg naar grote aanbevelingsmodellen met redeneervermogen

R^2ec: Towards Large Recommender Models with Reasoning

Samenvatting

Support