ChatPaper.aiChatPaper

OneRec: Unificando Recuperação e Classificação com Recomendador Generativo e Alinhamento Iterativo de Preferências

OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

February 26, 2025
Autores: Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou
cs.AI

Resumo

Recentemente, os sistemas de recomendação baseados em recuperação generativa emergiram como um paradigma promissor. No entanto, a maioria dos sistemas de recomendação modernos adota uma estratégia de recuperação e classificação, onde o modelo generativo funciona apenas como um seletor durante a etapa de recuperação. Neste artigo, propomos o OneRec, que substitui a estrutura de aprendizado em cascata por um modelo generativo unificado. Até onde sabemos, este é o primeiro modelo generativo de ponta a ponta que supera significativamente os sistemas de recomendação complexos e bem projetados atuais em cenários do mundo real. Especificamente, o OneRec inclui: 1) uma estrutura de codificador-decodificador, que codifica as sequências de comportamento histórico do usuário e decodifica gradualmente os vídeos que podem interessar ao usuário. Adotamos uma mistura esparsa de especialistas (MoE) para escalar a capacidade do modelo sem aumentar proporcionalmente os FLOPs computacionais. 2) uma abordagem de geração por sessão. Em contraste com a previsão tradicional do próximo item, propomos uma geração por sessão, que é mais elegante e contextualmente coerente do que a geração ponto a ponto que depende de regras manuais para combinar adequadamente os resultados gerados. 3) um módulo de Alinhamento Iterativo de Preferências combinado com Otimização Direta de Preferências (DPO) para melhorar a qualidade dos resultados gerados. Diferente do DPO em PLN, um sistema de recomendação geralmente tem apenas uma oportunidade para exibir resultados para cada solicitação de navegação do usuário, tornando impossível obter amostras positivas e negativas simultaneamente. Para resolver essa limitação, projetamos um modelo de recompensa para simular a geração do usuário e personalizar a estratégia de amostragem. Experimentos extensivos demonstraram que um número limitado de amostras DPO pode alinhar as preferências de interesse do usuário e melhorar significativamente a qualidade dos resultados gerados. Implantamos o OneRec na cena principal do Kuaishou, alcançando um aumento de 1,6% no tempo de exibição, o que representa uma melhoria substancial.
English
Recently, generative retrieval-based recommendation systems have emerged as a promising paradigm. However, most modern recommender systems adopt a retrieve-and-rank strategy, where the generative model functions only as a selector during the retrieval stage. In this paper, we propose OneRec, which replaces the cascaded learning framework with a unified generative model. To the best of our knowledge, this is the first end-to-end generative model that significantly surpasses current complex and well-designed recommender systems in real-world scenarios. Specifically, OneRec includes: 1) an encoder-decoder structure, which encodes the user's historical behavior sequences and gradually decodes the videos that the user may be interested in. We adopt sparse Mixture-of-Experts (MoE) to scale model capacity without proportionally increasing computational FLOPs. 2) a session-wise generation approach. In contrast to traditional next-item prediction, we propose a session-wise generation, which is more elegant and contextually coherent than point-by-point generation that relies on hand-crafted rules to properly combine the generated results. 3) an Iterative Preference Alignment module combined with Direct Preference Optimization (DPO) to enhance the quality of the generated results. Unlike DPO in NLP, a recommendation system typically has only one opportunity to display results for each user's browsing request, making it impossible to obtain positive and negative samples simultaneously. To address this limitation, We design a reward model to simulate user generation and customize the sampling strategy. Extensive experiments have demonstrated that a limited number of DPO samples can align user interest preferences and significantly improve the quality of generated results. We deployed OneRec in the main scene of Kuaishou, achieving a 1.6\% increase in watch-time, which is a substantial improvement.

Summary

AI-Generated Summary

PDF252March 4, 2025