Investition der Suche dort, wo sie sich lohnt: Wertgesteuerte strukturierte Stichprobenziehung und Optimierung für generative Empfehlungssysteme
Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation
February 11, 2026
papers.authors: Jie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu
cs.AI
papers.abstract
Generative Empfehlung mittels autoregressiver Modelle hat Retrieval und Ranking in einem einzigen bedingten Generierungsframework vereinheitlicht. Die Feinabstimmung dieser Modelle mit Reinforcement Learning (RL) leidet jedoch oft unter einer grundlegenden Wahrscheinlichkeits-Belohnungs-Fehlanpassung. Konventionelle, wahrscheinlichkeitsdominierte Decodierung (z.B. Beam Search) zeigt eine myopische Verzerrung hin zu lokal wahrscheinlichen Präfixen, was zwei kritische Fehler verursacht: (1) Unzureichende Exploration, bei der hochbelohnte Items in Zweigen mit geringer Wahrscheinlichkeit vorzeitig beschnitten werden und selten gesampelt werden, und (2) Vorteils-Kompression, bei der Trajektorien, die sich hochwahrscheinliche Präfixe teilen, hochkorrelierte Belohnungen mit geringer Varianz innerhalb der Gruppe erhalten, was ein schwaches vergleichendes Signal für RL liefert. Um diese Herausforderungen zu bewältigen, schlagen wir V-STAR vor, einen wertgeleiteten Sampling- und baumstrukturierten Vorteils-Reinforcement-Framework. V-STAR bildet eine sich selbst entwickelnde Schleife über zwei synergetische Komponenten. Erstens wird eine wertgeleitete effiziente Decodierung (VED) entwickelt, um entscheidende Knoten zu identifizieren und vielversprechende Präfixe selektiv zu vertiefen. Dies verbessert die Explorationseffizienz ohne erschöpfende Baumsuche. Zweitens schlagen wir Sibling-GRPO vor, das die induzierte Baumtopologie nutzt, um geschwister-relative Vorteile zu berechnen und die Lernsignale auf entscheidende Verzweigungsentscheidungen konzentriert. Umfangreiche Experimente mit Offline- und Online-Datensätzen zeigen, dass V-STAR state-of-the-art Baseline-Methoden übertrifft und unter strengen Latenzbeschränkungen eine überlegene Genauigkeit und Kandidatenmenge-Diversität liefert.
English
Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.