ChatPaper.aiChatPaper

OneRec: Vereinheitlichung von Retrieval und Ranking mit generativem Empfehlungssystem und iterativer Präferenzabstimmung

OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

February 26, 2025
Autoren: Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou
cs.AI

Zusammenfassung

Kürzlich haben generative, retrieverbasierte Empfehlungssysteme als vielversprechendes Paradigma an Bedeutung gewonnen. Die meisten modernen Empfehlungssysteme verfolgen jedoch eine Retrieve-and-Rank-Strategie, bei der das generative Modell lediglich als Selektor während der Retrieval-Phase fungiert. In diesem Artikel stellen wir OneRec vor, das das kaskadierte Lernframework durch ein einheitliches generatives Modell ersetzt. Unseres Wissens ist dies das erste End-to-End-generative Modell, das aktuelle komplexe und gut durchdachte Empfehlungssysteme in realen Szenarien deutlich übertrifft. Konkret umfasst OneRec: 1) eine Encoder-Decoder-Struktur, die die historischen Verhaltenssequenzen des Nutzers kodiert und schrittweise die Videos dekodiert, an denen der Nutzer interessiert sein könnte. Wir verwenden ein spärliches Mixture-of-Experts (MoE), um die Modellkapazität zu skalieren, ohne die Rechen-FLOPs proportional zu erhöhen. 2) einen sitzungsbasierten Generierungsansatz. Im Gegensatz zur traditionellen Next-Item-Vorhersage schlagen wir eine sitzungsweise Generierung vor, die eleganter und kontextuell kohärenter ist als eine punktweise Generierung, die auf handgefertigten Regeln basiert, um die generierten Ergebnisse angemessen zu kombinieren. 3) ein Iterative Preference Alignment-Modul in Kombination mit Direct Preference Optimization (DPO), um die Qualität der generierten Ergebnisse zu verbessern. Im Gegensatz zu DPO in der NLP hat ein Empfehlungssystem typischerweise nur eine Gelegenheit, Ergebnisse für jede Nutzeranfrage anzuzeigen, was es unmöglich macht, positive und negative Proben gleichzeitig zu erhalten. Um diese Einschränkung zu adressieren, haben wir ein Belohnungsmodell entworfen, um die Nutzergenerierung zu simulieren und die Sampling-Strategie anzupassen. Umfangreiche Experimente haben gezeigt, dass eine begrenzte Anzahl von DPO-Proben die Interessenpräferenzen der Nutzer ausrichten und die Qualität der generierten Ergebnisse deutlich verbessern kann. Wir haben OneRec in der Hauptszene von Kuaishou eingesetzt und eine Steigerung der Sehdauer um 1,6 % erreicht, was eine erhebliche Verbesserung darstellt.
English
Recently, generative retrieval-based recommendation systems have emerged as a promising paradigm. However, most modern recommender systems adopt a retrieve-and-rank strategy, where the generative model functions only as a selector during the retrieval stage. In this paper, we propose OneRec, which replaces the cascaded learning framework with a unified generative model. To the best of our knowledge, this is the first end-to-end generative model that significantly surpasses current complex and well-designed recommender systems in real-world scenarios. Specifically, OneRec includes: 1) an encoder-decoder structure, which encodes the user's historical behavior sequences and gradually decodes the videos that the user may be interested in. We adopt sparse Mixture-of-Experts (MoE) to scale model capacity without proportionally increasing computational FLOPs. 2) a session-wise generation approach. In contrast to traditional next-item prediction, we propose a session-wise generation, which is more elegant and contextually coherent than point-by-point generation that relies on hand-crafted rules to properly combine the generated results. 3) an Iterative Preference Alignment module combined with Direct Preference Optimization (DPO) to enhance the quality of the generated results. Unlike DPO in NLP, a recommendation system typically has only one opportunity to display results for each user's browsing request, making it impossible to obtain positive and negative samples simultaneously. To address this limitation, We design a reward model to simulate user generation and customize the sampling strategy. Extensive experiments have demonstrated that a limited number of DPO samples can align user interest preferences and significantly improve the quality of generated results. We deployed OneRec in the main scene of Kuaishou, achieving a 1.6\% increase in watch-time, which is a substantial improvement.

Summary

AI-Generated Summary

PDF252March 4, 2025