Rank-GRPO: 강화 학습을 활용한 LLM 기반 대화형 추천 시스템 훈련
Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning
October 23, 2025
저자: Yaochen Zhu, Harald Steck, Dawen Liang, Yinhan He, Jundong Li, Nathan Kallus
cs.AI
초록
대규모 언어 모델(LLM)은 사용자가 대화를 통해 선호도를 표현하고 추천을 받을 수 있게 함으로써 추천 시스템 패러다임을 재편하고 있습니다. 그러나 LLM을 추천 작업에 맞추는 것은 여전히 어려운 과제입니다: 사전 학습된 LLM은 종종 카탈로그에 없는 항목을 생성하거나, 요구되는 출력 형식을 위반하며, 생성된 목록의 끝으로 갈수록 순위 지정 품질이 급격히 저하됩니다. 이를 위해 우리는 LLM 기반 대화형 추천 시스템의 종단간 학습을 위한 2단계 프레임워크인 ConvRec-R1을 제안합니다. 1단계에서는 Remap-Reflect-Adjust 파이프라인을 통해 행동 복제 데이터셋을 구축하여, 강력한 블랙박스 LLM으로부터 카탈로그에 기반한 고품질 데모를 생성하여 RL 학습을 웜스타트합니다. 2단계에서는 순위 스타일 출력을 가진 작업에 맞춰 그룹 상대 정책 최적화(GRPO)를 체계적으로 확장한 Rank-GRPO를 제안합니다. Rank-GRPO는 추천 목록의 각 순위를 토큰(너무 세분화됨)이나 시퀀스(너무 포괄적) 대신 단위로 취급하며, 인과 관계에 기인하지 않는 크레딧 할당을 제거하기 위해 보상을 재정의하고, 순위별 토큰 확률의 기하 평균에 기반한 순위 수준 중요도 비율을 도입하여 정책 업데이트를 안정화합니다. 공개 Reddit-v2 데이터셋에 대한 실험 결과, ConvRec-R1이 GRPO 스타일 베이스라인보다 더 빠르게 수렴하고 더 높은 Recall 및 NDCG를 달성함을 보여줍니다. 코드와 데이터셋은 https://github.com/yaochenzhu/Rank-GRPO 에 공개되어 있습니다.
English
Large language models (LLMs) are reshaping the recommender system paradigm by
enabling users to express preferences and receive recommendations through
conversations. Yet, aligning LLMs to the recommendation task remains
challenging: pretrained LLMs often generate out-of-catalog items, violate
required output formats, and their ranking quality degrades sharply toward the
end of the generated list. To this end, we propose ConvRec-R1, a two-stage
framework for end-to-end training of LLM-based conversational recommender
systems. In Stage 1, we construct a behavioral-cloning dataset with a
Remap-Reflect-Adjust pipeline, which produces high-quality, catalog-grounded
demonstrations from powerful blackbox LLMs to warm-start the RL training. In
Stage 2, we propose Rank-GRPO, a principled extension of group relative policy
optimization (GRPO) tailored to tasks with rank-style outputs. Rank-GRPO treats
each rank in the recommendation list as the unit instead of token (too
fine-grained) or sequence (too coarse), redefining rewards to remove non-causal
credit assignment and introducing a rank-level importance ratio based on the
geometric mean of rank-wise token probabilities to stabilize policy updates.
Experiments on the public Reddit-v2 dataset show that ConvRec-R1 converges
faster and achieves higher Recall and NDCG than GRPO-style baselines. Code and
datasets are released at https://github.com/yaochenzhu/Rank-GRPO.