ChatPaper.aiChatPaper

OneRec: Het verenigen van ophalen en rangschikken met een generatieve aanbevelingssysteem en iteratieve voorkeursafstemming

OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

February 26, 2025
Auteurs: Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou
cs.AI

Samenvatting

Onlangs zijn op generatie gebaseerde aanbevelingssystemen met retrievallen naar voren gekomen als een veelbelovend paradigma. De meeste moderne aanbevelingssystemen hanteren echter een retrieve-and-rank strategie, waarbij het generatieve model alleen fungeert als een selector tijdens de retrievallingfase. In dit artikel stellen we OneRec voor, dat het gecascadeerde leerframework vervangt door een uniform generatief model. Voor zover wij weten, is dit het eerste end-to-end generatieve model dat huidige complexe en goed ontworpen aanbevelingssystemen in real-world scenario's significant overtreft. Specifiek omvat OneRec: 1) een encoder-decoder structuur, die de historische gedragssequenties van de gebruiker encodeert en geleidelijk de video's decodeert waarin de gebruiker mogelijk geïnteresseerd is. We gebruiken sparse Mixture-of-Experts (MoE) om de modelcapaciteit te schalen zonder proportioneel de rekenkundige FLOPs te verhogen. 2) een sessiegewijze generatiebenadering. In tegenstelling tot traditionele next-item voorspelling, stellen we een sessiegewijze generatie voor, die eleganter en contextueel coherenter is dan punt-voor-punt generatie die afhankelijk is van handmatig gemaakte regels om de gegenereerde resultaten goed te combineren. 3) een Iterative Preference Alignment module gecombineerd met Direct Preference Optimization (DPO) om de kwaliteit van de gegenereerde resultaten te verbeteren. In tegenstelling tot DPO in NLP, heeft een aanbevelingssysteem typisch slechts één kans om resultaten te tonen voor elke browseverzoek van een gebruiker, waardoor het onmogelijk is om positieve en negatieve samples tegelijkertijd te verkrijgen. Om deze beperking aan te pakken, hebben we een beloningsmodel ontworpen om gebruikersgeneratie te simuleren en de samplingstrategie aan te passen. Uitgebreide experimenten hebben aangetoond dat een beperkt aantal DPO samples de interessevoorkeuren van gebruikers kan afstemmen en de kwaliteit van de gegenereerde resultaten aanzienlijk kan verbeteren. We hebben OneRec geïmplementeerd in de hoofdomgeving van Kuaishou, wat een toename van 1,6% in kijktijd opleverde, een aanzienlijke verbetering.
English
Recently, generative retrieval-based recommendation systems have emerged as a promising paradigm. However, most modern recommender systems adopt a retrieve-and-rank strategy, where the generative model functions only as a selector during the retrieval stage. In this paper, we propose OneRec, which replaces the cascaded learning framework with a unified generative model. To the best of our knowledge, this is the first end-to-end generative model that significantly surpasses current complex and well-designed recommender systems in real-world scenarios. Specifically, OneRec includes: 1) an encoder-decoder structure, which encodes the user's historical behavior sequences and gradually decodes the videos that the user may be interested in. We adopt sparse Mixture-of-Experts (MoE) to scale model capacity without proportionally increasing computational FLOPs. 2) a session-wise generation approach. In contrast to traditional next-item prediction, we propose a session-wise generation, which is more elegant and contextually coherent than point-by-point generation that relies on hand-crafted rules to properly combine the generated results. 3) an Iterative Preference Alignment module combined with Direct Preference Optimization (DPO) to enhance the quality of the generated results. Unlike DPO in NLP, a recommendation system typically has only one opportunity to display results for each user's browsing request, making it impossible to obtain positive and negative samples simultaneously. To address this limitation, We design a reward model to simulate user generation and customize the sampling strategy. Extensive experiments have demonstrated that a limited number of DPO samples can align user interest preferences and significantly improve the quality of generated results. We deployed OneRec in the main scene of Kuaishou, achieving a 1.6\% increase in watch-time, which is a substantial improvement.

Summary

AI-Generated Summary

PDF252March 4, 2025