ChatPaper.aiChatPaper

検索コストを効果的に配分する:価値誘導型構造化サンプリングと生成型推薦の最適化

Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

February 11, 2026
著者: Jie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu
cs.AI

要旨

自己回帰モデルによる生成的推薦は、検索とランキングを単一の条件付き生成フレームワークに統合してきた。しかし、強化学習(RL)を用いたこれらのモデルの微調整は、確率と報酬の根本的なミスマッチに悩まされることが多い。従来の尤度主導デコーディング(例:ビームサーチ)は、局所的に確率の高い接頭辞に対して近視眼的なバイアスを示し、二つの重大な問題を引き起こす。(1) 探索不足:低確率分枝にある高報酬アイテムが早期に刈り込まれ、ほとんどサンプリングされない。(2) アドバンテージ圧縮:高確率の接頭辞を共有する軌跡は高度に相関した報酬を受け、グループ内分散が低いため、RLにとって弱い比較信号となる。これらの課題に対処するため、我々はV-STAR(Value-guided Sampling and Tree-structured Advantage Reinforcement)フレームワークを提案する。V-STARは、相乗効果を持つ二つのコンポーネントを通じて自己進化的なループを形成する。第一に、Value-Guided Efficient Decoding (VED) を開発し、決定的なノードを特定し、潜在能力の高い接頭辞を選択的に深堀りする。これにより、網羅的な木探索を行うことなく探索効率が向上する。第二に、誘導された木構造を利用して兄弟間相対アドバンテージを計算し、学習信号を決定的な分岐決定に集中させるSibling-GRPOを提案する。オフラインおよびオンラインデータセットにおける大規模な実験により、V-STARが最先端のベースラインを上回り、厳しいレイテンシ制約下で優れた精度と候補集合の多様性を実現することが実証された。
English
Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.
PDF11February 13, 2026