ChatPaper.aiChatPaper

Invierta la Búsqueda Donde Rinde: Muestreo Estructurado y Optimización Guiados por Valor para la Recomendación Generativa

Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

February 11, 2026
Autores: Jie Jiang, Yangru Huang, Zeyu Wang, Changping Wang, Yuling Xiong, Jun Zhang, Huan Yu
cs.AI

Resumen

La recomendación generativa mediante modelos autorregresivos ha unificado la recuperación y la clasificación en un único marco de generación condicional. Sin embargo, el ajuste fino de estos modelos con Aprendizaje por Refuerzo (RL) sufre a menudo de un desajuste fundamental entre probabilidad y recompensa. La decodificación convencional dominada por verosimilitud (por ejemplo, búsqueda por haz) exhibe un sesgo miope hacia prefijos localmente probables, lo que causa dos fallos críticos: (1) exploración insuficiente, donde ítems de alta recompensa en ramas de baja probabilidad son podados prematuramente y raramente muestreados, y (2) compresión de ventaja, donde las trayectorias que comparten prefijos de alta probabilidad reciben recompensas altamente correlacionadas con baja varianza intragrupo, produciendo una señal comparativa débil para el RL. Para abordar estos desafíos, proponemos V-STAR, un marco de Muestreo Guiado por Valor y Ventaja de Estructura Arbórea para RL. V-STAR forma un bucle de auto-evolución mediante dos componentes sinérgicos. Primero, se desarrolla una Decodificación Eficaz Guiada por Valor (VED) para identificar nodos decisivos y profundizar selectivamente prefijos de alto potencial. Esto mejora la eficiencia de exploración sin necesidad de una búsqueda exhaustiva en árbol. Segundo, proponemos Sibling-GRPO, que explota la topología de árbol inducida para calcular ventajas relativas entre nodos hermanos y concentra las señales de aprendizaje en decisiones de ramificación decisivas. Experimentos exhaustivos en conjuntos de datos tanto offline como online demuestran que V-STAR supera a los métodos de referencia más avanzados, ofreciendo una precisión superior y una diversidad de conjuntos de candidatos bajo estrictas restricciones de latencia.
English
Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.
PDF11February 13, 2026