ChatPaper.aiChatPaper

R^2ec: Rumo a Grandes Modelos de Recomendação com Raciocínio

R^2ec: Towards Large Recommender Models with Reasoning

May 22, 2025
Autores: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
cs.AI

Resumo

Grandes modelos de recomendação têm estendido os LLMs (Large Language Models) como poderosos sistemas de recomendação por meio de codificação ou geração de itens, e os recentes avanços no raciocínio de LLMs motivam simultaneamente a exploração do raciocínio em sistemas de recomendação. Estudos atuais geralmente posicionam os LLMs como módulos externos de raciocínio para fornecer pensamentos auxiliares, aprimorando os pipelines convencionais de recomendação. No entanto, esses projetos desacoplados são limitados pelo alto custo de recursos e pela otimização conjunta subótima. Para resolver esses problemas, propomos o \name, um modelo unificado de recomendação de grande escala com capacidades intrínsecas de raciocínio. Inicialmente, reconceituamos a arquitetura do modelo para facilitar o raciocínio intercalado e a recomendação no processo autoregressivo. Em seguida, propomos o RecPO, um framework de aprendizado por reforço correspondente que otimiza o \name tanto para capacidades de raciocínio quanto de recomendação simultaneamente em uma única atualização de política; o RecPO introduz um esquema de recompensa fundida que utiliza apenas rótulos de recomendação para simular a capacidade de raciocínio, eliminando a dependência de anotações especializadas de raciocínio. Experimentos em três conjuntos de dados com várias linhas de base verificam a eficácia do \name, mostrando melhorias relativas de 68,67% em Hit@5 e 45,21% em NDCG@20. O código está disponível em https://github.com/YRYangang/RRec.
English
Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.
PDF22June 4, 2025