Dépenser la recherche là où elle rapporte : échantillonnage structuré guidé par la valeur et optimisation pour la recommandation générative
Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation
February 11, 2026
papers.authors: Jie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu
cs.AI
papers.abstract
La recommandation générative via modèles autorégressifs a unifié la recherche et le classement dans un cadre unique de génération conditionnelle. Cependant, le fine-tuning de ces modèles par Apprentissage par Renforcement (RL) souffre souvent d'une incompatibilité fondamentale entre probabilité et récompense. Le décodage conventionnel dominé par la vraisemblance (ex: recherche en faisceau) présente un biais myope en faveur des préfixes localement probables, causant deux échecs critiques : (1) une exploration insuffisante, où les items à forte récompense dans les branches peu probables sont prématurément élagués et rarement échantillonnés, et (2) une compression d'avantage, où les trajectoires partageant des préfixes hautement probables reçoivent des récompenses fortement corrélées avec une faible variance intra-groupe, produisant un signal comparatif faible pour le RL. Pour résoudre ces défis, nous proposons V-STAR, un cadre de Renforcement par Avantage Arborescent et Échantillonnage Guidé par la Valeur. V-STAR forme une boucle auto-évolutive via deux composants synergiques. D'abord, un Décodage Efficace Guidé par la Valeur (VED) identifie les nœuds décisifs et approfondit sélectivement les préfixes à fort potentiel. Ceci améliore l'efficacité de l'exploration sans recherche arborescente exhaustive. Ensuite, nous proposons Sibling-GRPO, qui exploite la topologie arborescente induite pour calculer des avantages relatifs entre frères et concentre les signaux d'apprentissage sur les décisions de branchement décisives. Des expériences approfondies sur des jeux de données hors ligne et en ligne démontrent que V-STAR surpasse les méthodes de référence, offrant une précision supérieure et une diversité d'ensemble de candidats sous de strictes contraintes de latence.
English
Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.