Тратьте ресурсы поиска с умом: Ценностно-ориентированное структурированное сэмплирование и оптимизация для генеративных рекомендательных систем
Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation
February 11, 2026
Авторы: Jie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu
cs.AI
Аннотация
Генеративная рекомендация с помощью авторегрессионных моделей объединила извлечение и ранжирование в единую условную генеративную структуру. Однако тонкая настройка этих моделей с помощью обучения с подкреплением (ОП) часто страдает от фундаментального несоответствия между вероятностью и вознаграждением. Традиционное декодирование, доминируемое правдоподобием (например, поиск по лучу), демонстрирует миопическое смещение в сторону локально вероятных префиксов, что вызывает два критических сбоя: (1) недостаточное исследование, когда элементы с высоким вознаграждением в ветвях с низкой вероятностью преждевременно отсекаются и редко сэмплируются, и (2) сжатие преимущества, когда траектории, имеющие общие высоковероятностные префиксы, получают высокоскоррелированные вознаграждения с низкой внутригрупповой дисперсией, что дает слабый сравнительный сигнал для ОП. Для решения этих проблем мы предлагаем V-STAR — структуру Value-guided Sampling and Tree-structured Advantage Reinforcement. V-STAR формирует саморазвивающийся цикл через две синергетические компоненты. Во-первых, разрабатывается Эффективное Декодирование с Ценностным Руководством (VED) для идентификации решающих узлов и избирательного углубления перспективных префиксов. Это повышает эффективность исследования без исчерпывающего поиска по дереву. Во-вторых, мы предлагаем Sibling-GRPO, который использует индуцированную древовидную топологию для вычисления относительных преимуществ узлов-братьев и концентрирует обучающие сигналы на решающих ветвящихся решениях. Многочисленные эксперименты на оффлайн- и онлайн-наборах данных показывают, что V-STAR превосходит современные базовые методы, обеспечивая превосходную точность и разнообразие наборов кандидатов при строгих ограничениях на задержку.
English
Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.