Gaste a Busca Onde Compensa: Amostragem Estruturada e Otimização Orientadas por Valor para Recomendação Generativa

Resumo

A recomendação generativa via modelos autorregressivos unificou recuperação e classificação em uma estrutura única de geração condicional. No entanto, o ajuste fino desses modelos com Aprendizagem por Reforço (RL) frequentemente sofre de um desalinhamento fundamental entre probabilidade e recompensa. A decodificação convencional dominada por verossimilhança (ex.: busca em feixe) exibe um viés míope em relação a prefixos localmente prováveis, causando duas falhas críticas: (1) exploração insuficiente, onde itens de alta recompensa em ramos de baixa probabilidade são podados prematuramente e raramente amostrados, e (2) compressão de vantagem, onde trajetórias que compartilham prefixos de alta probabilidade recebem recompensas altamente correlacionadas com baixa variância intragrupo, produzindo um sinal comparativo fraco para RL. Para enfrentar esses desafios, propomos o V-STAR, uma estrutura de Amostragem Guiada por Valor e Reforço de Vantagem com Estrutura em Árvore. O V-STAR forma um ciclo de auto-evolução por meio de dois componentes sinérgicos. Primeiro, uma Decodificação Eficiente Guiada por Valor (VED) é desenvolvida para identificar nós decisivos e aprofundar seletivamente prefixos de alto potencial. Isso melhora a eficiência da exploração sem uma busca exaustiva em árvore. Segundo, propomos o Sibling-GRPO, que explora a topologia de árvore induzida para calcular vantagens relativas entre irmãos e concentra os sinais de aprendizado em decisões de ramificação decisivas. Experimentos extensos em conjuntos de dados offline e online demonstram que o V-STAR supera os baselines state-of-the-art, oferecendo precisão superior e diversidade no conjunto de candidatos sob restrições rigorosas de latência.

English

Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.

Gaste a Busca Onde Compensa: Amostragem Estruturada e Otimização Orientadas por Valor para Recomendação Generativa

Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

Resumo

Support