Investire la Ricerca Dove Conviene: Campionamento Strutturato e Ottimizzazione Guidati dal Valore per la Raccomandazione Generativa
Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation
February 11, 2026
Autori: Jie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu
cs.AI
Abstract
La raccomandazione generativa tramite modelli autoregressivi ha unificato la fase di retrieval e quella di ranking in un unico framework di generazione condizionata. Tuttavia, il fine-tuning di questi modelli con l'Apprendimento per Rinforzo (RL) soffre spesso di un fondamentale disallineamento tra probabilità e ricompensa. La decodifica dominata dalla verosimiglianza convenzionale (ad esempio, la beam search) mostra una miopia verso prefissi localmente probabili, causando due fallimenti critici: (1) esplorazione insufficiente, dove item ad alta ricompensa in rami a bassa probabilità vengono potati prematuramente e raramente campionati, e (2) compressione del vantaggio, dove traiettorie che condividono prefissi ad alta probabilità ricevono ricompense altamente correlate con bassa varianza intra-gruppo, producendo un segnale comparativo debole per l'RL. Per affrontare queste sfide, proponiamo V-STAR, un framework di Apprendimento per Rinforzo con Campionamento Guidato dal Valore e Vantaggio ad Albero. V-STAR forma un ciclo auto-evolutivo tramite due componenti sinergiche. In primo luogo, viene sviluppata una Decodifica Efficace Guidata dal Valore (VED) per identificare nodi decisivi e approfondire selettivamente i prefissi ad alto potenziale. Ciò migliora l'efficienza dell'esplorazione senza una ricerca esaustiva ad albero. In secondo luogo, proponiamo Sibling-GRPO, che sfrutta la topologia ad albero indotta per calcolare vantaggi relativi tra nodi fratelli e concentra i segnali di apprendimento sulle decisioni di ramificazione decisive. Esperimenti estesi su dataset offline e online dimostrano che V-STAR supera i baseline state-of-the-art, offrendo un'accuratezza superiore e una maggiore diversità dell'insieme di candidati sotto stringenti vincoli di latenza.
English
Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.