R^2ec: 추론 기능을 갖춘 대규모 추천 모델을 향하여
R^2ec: Towards Large Recommender Models with Reasoning
May 22, 2025
저자: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
cs.AI
초록
대규모 추천 모델은 LLM(Large Language Model)을 강력한 추천 시스템으로 확장하기 위해 인코딩 또는 아이템 생성 방식을 활용해 왔으며, 최근 LLM의 추론 능력에서의 획기적인 발전은 추천 시스템에서의 추론 탐구를 동시에 촉진하고 있다. 현재 연구들은 주로 LLM을 외부 추론 모듈로 위치시켜 기존 추천 파이프라인을 보조하는 추가적인 사고를 생성하는 데 활용하고 있다. 그러나 이러한 분리된 설계는 상당한 자원 비용과 최적화되지 않은 결합 최적화로 인해 한계를 보인다. 이러한 문제를 해결하기 위해, 본 연구에서는 내재적 추론 능력을 갖춘 통합 대규모 추천 모델인 \name을 제안한다. 먼저, 모델 아키텍처를 재구성하여 자기회귀 과정에서 추론과 추천이 교차적으로 이루어지도록 설계한다. 이후, RecPO라는 강화 학습 프레임워크를 제안하여 \name의 추론 및 추천 능력을 단일 정책 업데이트에서 동시에 최적화한다. RecPO는 추천 레이블만을 활용하여 추론 능력을 시뮬레이션하는 융합 보상 체계를 도입함으로써 전문적인 추론 주석에 대한 의존성을 제거한다. 다양한 베이스라인과 함께 세 가지 데이터셋에서 수행한 실험을 통해 \name의 효과를 검증하였으며, Hit@5에서 68.67%, NDCG@20에서 45.21%의 상대적 개선을 보였다. 코드는 https://github.com/YRYangang/RRec에서 확인할 수 있다.
English
Large recommender models have extended LLMs as powerful recommenders via
encoding or item generation, and recent breakthroughs in LLM reasoning
synchronously motivate the exploration of reasoning in recommendation. Current
studies usually position LLMs as external reasoning modules to yield auxiliary
thought for augmenting conventional recommendation pipelines. However, such
decoupled designs are limited in significant resource cost and suboptimal joint
optimization. To address these issues, we propose \name, a unified large
recommender model with intrinsic reasoning capabilities. Initially, we
reconceptualize the model architecture to facilitate interleaved reasoning and
recommendation in the autoregressive process. Subsequently, we propose RecPO, a
corresponding reinforcement learning framework that optimizes \name\ both the
reasoning and recommendation capabilities simultaneously in a single policy
update; RecPO introduces a fused reward scheme that solely leverages
recommendation labels to simulate the reasoning capability, eliminating
dependency on specialized reasoning annotations. Experiments on three datasets
with various baselines verify the effectiveness of \name, showing relative
improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at
https://github.com/YRYangang/RRec.