ChatPaper.aiChatPaper

R^2ec: Verso Modelli di Raccomandazione su Larga Scala con Capacità di Ragionamento

R^2ec: Towards Large Recommender Models with Reasoning

May 22, 2025
Autori: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
cs.AI

Abstract

I grandi modelli di raccomandazione hanno esteso i modelli linguistici di grandi dimensioni (LLM) come potenti strumenti di raccomandazione attraverso la codifica o la generazione di elementi, e i recenti progressi nel ragionamento degli LLM hanno contemporaneamente motivato l'esplorazione del ragionamento nei sistemi di raccomandazione. Gli studi attuali posizionano solitamente gli LLM come moduli di ragionamento esterni per fornire pensieri ausiliari al fine di potenziare le pipeline di raccomandazione convenzionali. Tuttavia, tali design disaccoppiati sono limitati da un significativo costo di risorse e da un'ottimizzazione congiunta non ottimale. Per affrontare questi problemi, proponiamo \name, un modello unificato di raccomandazione di grandi dimensioni con capacità intrinseche di ragionamento. Inizialmente, riconcettualizziamo l'architettura del modello per facilitare il ragionamento intervallato e la raccomandazione nel processo autoregressivo. Successivamente, proponiamo RecPO, un corrispondente framework di apprendimento per rinforzo che ottimizza \name\ sia per le capacità di ragionamento che di raccomandazione simultaneamente in un singolo aggiornamento della politica; RecPO introduce uno schema di ricompensa fusa che sfrutta esclusivamente le etichette di raccomandazione per simulare la capacità di ragionamento, eliminando la dipendenza da annotazioni specializzate di ragionamento. Esperimenti su tre dataset con varie baseline verificano l'efficacia di \name, mostrando miglioramenti relativi del 68,67\% in Hit@5 e del 45,21\% in NDCG@20. Il codice è disponibile all'indirizzo https://github.com/YRYangang/RRec.
English
Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.
PDF22June 4, 2025