OneRec: Unificando Recuperação e Classificação com Recomendador Generativo e Alinhamento Iterativo de Preferências
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment
February 26, 2025
Autores: Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou
cs.AI
Resumo
Recentemente, os sistemas de recomendação baseados em recuperação generativa emergiram como um paradigma promissor. No entanto, a maioria dos sistemas de recomendação modernos adota uma estratégia de recuperação e classificação, onde o modelo generativo funciona apenas como um seletor durante a etapa de recuperação. Neste artigo, propomos o OneRec, que substitui a estrutura de aprendizado em cascata por um modelo generativo unificado. Até onde sabemos, este é o primeiro modelo generativo de ponta a ponta que supera significativamente os sistemas de recomendação complexos e bem projetados atuais em cenários do mundo real. Especificamente, o OneRec inclui: 1) uma estrutura de codificador-decodificador, que codifica as sequências de comportamento histórico do usuário e decodifica gradualmente os vídeos que podem interessar ao usuário. Adotamos uma mistura esparsa de especialistas (MoE) para escalar a capacidade do modelo sem aumentar proporcionalmente os FLOPs computacionais. 2) uma abordagem de geração por sessão. Em contraste com a previsão tradicional do próximo item, propomos uma geração por sessão, que é mais elegante e contextualmente coerente do que a geração ponto a ponto que depende de regras manuais para combinar adequadamente os resultados gerados. 3) um módulo de Alinhamento Iterativo de Preferências combinado com Otimização Direta de Preferências (DPO) para melhorar a qualidade dos resultados gerados. Diferente do DPO em PLN, um sistema de recomendação geralmente tem apenas uma oportunidade para exibir resultados para cada solicitação de navegação do usuário, tornando impossível obter amostras positivas e negativas simultaneamente. Para resolver essa limitação, projetamos um modelo de recompensa para simular a geração do usuário e personalizar a estratégia de amostragem. Experimentos extensivos demonstraram que um número limitado de amostras DPO pode alinhar as preferências de interesse do usuário e melhorar significativamente a qualidade dos resultados gerados. Implantamos o OneRec na cena principal do Kuaishou, alcançando um aumento de 1,6% no tempo de exibição, o que representa uma melhoria substancial.
English
Recently, generative retrieval-based recommendation systems have emerged as a
promising paradigm. However, most modern recommender systems adopt a
retrieve-and-rank strategy, where the generative model functions only as a
selector during the retrieval stage. In this paper, we propose OneRec, which
replaces the cascaded learning framework with a unified generative model. To
the best of our knowledge, this is the first end-to-end generative model that
significantly surpasses current complex and well-designed recommender systems
in real-world scenarios. Specifically, OneRec includes: 1) an encoder-decoder
structure, which encodes the user's historical behavior sequences and gradually
decodes the videos that the user may be interested in. We adopt sparse
Mixture-of-Experts (MoE) to scale model capacity without proportionally
increasing computational FLOPs. 2) a session-wise generation approach. In
contrast to traditional next-item prediction, we propose a session-wise
generation, which is more elegant and contextually coherent than point-by-point
generation that relies on hand-crafted rules to properly combine the generated
results. 3) an Iterative Preference Alignment module combined with Direct
Preference Optimization (DPO) to enhance the quality of the generated results.
Unlike DPO in NLP, a recommendation system typically has only one opportunity
to display results for each user's browsing request, making it impossible to
obtain positive and negative samples simultaneously. To address this
limitation, We design a reward model to simulate user generation and customize
the sampling strategy. Extensive experiments have demonstrated that a limited
number of DPO samples can align user interest preferences and significantly
improve the quality of generated results. We deployed OneRec in the main scene
of Kuaishou, achieving a 1.6\% increase in watch-time, which is a substantial
improvement.Summary
AI-Generated Summary