생산적인 추천을 위한 가치 기반 구조화 샘플링 및 최적화: 효과적인 탐색 전략
Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation
February 11, 2026
저자: Jie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu
cs.AI
초록
자기회귀 모델을 통한 생성적 추천은 검색과 순위 산정을 단일 조건부 생성 프레임워크로 통합해왔습니다. 그러나 이러한 모델을 강화학습(RL)으로 미세 조정할 경우 근본적인 확률-보상 불일치 문제가 자주 발생합니다. 기존의 가능도 중심 디코딩(예: 빔 서치)은 지역적으로 확률이 높은 접두사에 대한 근시안적 편향을 보이며, 이로 인해 두 가지 중요한 결함이 나타납니다: (1) 낮은 확률 분기 내 고보상 항목들이 조기에 제거되어 샘플링되기 어려운 탐색 부족 문제, (2) 높은 확률의 접두사를 공유하는 경로들이 낮은 그룹 내 분산을 지닌 높은 상관관계의 보상을 받아 RL의 비교 신호가 약화되는 이점 압축 문제입니다. 이러한 과제를 해결하기 위해 우리는 가치 지도 샘플링 및 트리 구조 이점 강화 프레임워크인 V-STAR를 제안합니다. V-STAR는 두 가지 상호 보완적 구성 요소를 통해 자기 진화형 루프를 형성합니다. 첫째, 결정적 노드를 식별하고 잠재력 높은 접두사를 선택적으로 심화시키는 가치 지도 효율 디코딩(VED)을 개발했습니다. 이는 포괄적인 트리 탐색 없이 탐색 효율을 향상시킵니다. 둘째, 유도된 트리 토폴로지를 활용하여 형제-상대적 이점을 계산하고 학습 신호를 결정적 분기 결정에 집중하는 Sibling-GRPO를 제안합니다. 오프라인 및 온라인 데이터셋에 대한 광범위한 실험을 통해 V-STAR가 최신 기준선을 능가하며, 엄격한 지연 시간 제약 하에서 우수한 정확도와 후보 집합 다양성을 제공함을 입증했습니다.
English
Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.