R^2ec: Hacia Modelos de Recomendación a Gran Escala con Razonamiento
R^2ec: Towards Large Recommender Models with Reasoning
May 22, 2025
Autores: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
cs.AI
Resumen
Los grandes modelos de recomendación han extendido los LLMs como potentes recomendadores mediante la codificación o generación de ítems, y los recientes avances en el razonamiento de LLMs han motivado de manera sincrónica la exploración del razonamiento en la recomendación. Los estudios actuales suelen posicionar a los LLMs como módulos externos de razonamiento para generar pensamientos auxiliares que mejoren los flujos convencionales de recomendación. Sin embargo, estos diseños desacoplados están limitados por un costo significativo de recursos y una optimización conjunta subóptima. Para abordar estos problemas, proponemos \name, un modelo unificado de recomendación a gran escala con capacidades intrínsecas de razonamiento. Inicialmente, reconceptualizamos la arquitectura del modelo para facilitar el razonamiento intercalado y la recomendación en el proceso autoregresivo. Posteriormente, proponemos RecPO, un marco de aprendizaje por refuerzo correspondiente que optimiza \name\ tanto en sus capacidades de razonamiento como de recomendación simultáneamente en una única actualización de política; RecPO introduce un esquema de recompensa fusionada que aprovecha únicamente las etiquetas de recomendación para simular la capacidad de razonamiento, eliminando la dependencia de anotaciones especializadas de razonamiento. Los experimentos en tres conjuntos de datos con diversas líneas base verifican la efectividad de \name, mostrando mejoras relativas del 68.67\% en Hit@5 y del 45.21\% en NDCG@20. El código está disponible en https://github.com/YRYangang/RRec.
English
Large recommender models have extended LLMs as powerful recommenders via
encoding or item generation, and recent breakthroughs in LLM reasoning
synchronously motivate the exploration of reasoning in recommendation. Current
studies usually position LLMs as external reasoning modules to yield auxiliary
thought for augmenting conventional recommendation pipelines. However, such
decoupled designs are limited in significant resource cost and suboptimal joint
optimization. To address these issues, we propose \name, a unified large
recommender model with intrinsic reasoning capabilities. Initially, we
reconceptualize the model architecture to facilitate interleaved reasoning and
recommendation in the autoregressive process. Subsequently, we propose RecPO, a
corresponding reinforcement learning framework that optimizes \name\ both the
reasoning and recommendation capabilities simultaneously in a single policy
update; RecPO introduces a fused reward scheme that solely leverages
recommendation labels to simulate the reasoning capability, eliminating
dependency on specialized reasoning annotations. Experiments on three datasets
with various baselines verify the effectiveness of \name, showing relative
improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at
https://github.com/YRYangang/RRec.