R^2ec: Hacia Modelos de Recomendación a Gran Escala con Razonamiento

Resumen

Los grandes modelos de recomendación han extendido los LLMs como potentes recomendadores mediante la codificación o generación de ítems, y los recientes avances en el razonamiento de LLMs han motivado de manera sincrónica la exploración del razonamiento en la recomendación. Los estudios actuales suelen posicionar a los LLMs como módulos externos de razonamiento para generar pensamientos auxiliares que mejoren los flujos convencionales de recomendación. Sin embargo, estos diseños desacoplados están limitados por un costo significativo de recursos y una optimización conjunta subóptima. Para abordar estos problemas, proponemos \name, un modelo unificado de recomendación a gran escala con capacidades intrínsecas de razonamiento. Inicialmente, reconceptualizamos la arquitectura del modelo para facilitar el razonamiento intercalado y la recomendación en el proceso autoregresivo. Posteriormente, proponemos RecPO, un marco de aprendizaje por refuerzo correspondiente que optimiza \name\ tanto en sus capacidades de razonamiento como de recomendación simultáneamente en una única actualización de política; RecPO introduce un esquema de recompensa fusionada que aprovecha únicamente las etiquetas de recomendación para simular la capacidad de razonamiento, eliminando la dependencia de anotaciones especializadas de razonamiento. Los experimentos en tres conjuntos de datos con diversas líneas base verifican la efectividad de \name, mostrando mejoras relativas del 68.67\% en Hit@5 y del 45.21\% en NDCG@20. El código está disponible en https://github.com/YRYangang/RRec.

English

Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.

R^2ec: Hacia Modelos de Recomendación a Gran Escala con Razonamiento

R^2ec: Towards Large Recommender Models with Reasoning

Resumen

Support