OneRec : Unification de la récupération et du classement avec un système de recommandation génératif et un alignement itératif des préférences
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment
February 26, 2025
Auteurs: Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou
cs.AI
Résumé
Récemment, les systèmes de recommandation basés sur la génération et la récupération ont émergé comme un paradigme prometteur. Cependant, la plupart des systèmes de recommandation modernes adoptent une stratégie de récupération et classement, où le modèle génératif ne fonctionne que comme un sélecteur lors de l'étape de récupération. Dans cet article, nous proposons OneRec, qui remplace le cadre d'apprentissage en cascade par un modèle génératif unifié. À notre connaissance, il s'agit du premier modèle génératif de bout en bout qui surpasse significativement les systèmes de recommandation complexes et bien conçus actuels dans des scénarios réels. Plus précisément, OneRec comprend : 1) une structure encodeur-décodeur, qui encode les séquences de comportement historique de l'utilisateur et décode progressivement les vidéos susceptibles d'intéresser l'utilisateur. Nous adoptons un modèle sparse Mixture-of-Experts (MoE) pour augmenter la capacité du modèle sans augmenter proportionnellement les FLOPs de calcul. 2) une approche de génération par session. Contrairement à la prédiction traditionnelle de l'élément suivant, nous proposons une génération par session, qui est plus élégante et cohérente contextuellement que la génération point par point qui repose sur des règles artisanales pour combiner correctement les résultats générés. 3) un module d'Alignement Itératif des Préférences combiné avec l'Optimisation Directe des Préférences (DPO) pour améliorer la qualité des résultats générés. Contrairement au DPO en NLP, un système de recommandation a généralement une seule opportunité d'afficher des résultats pour chaque requête de navigation de l'utilisateur, rendant impossible l'obtention simultanée d'échantillons positifs et négatifs. Pour résoudre cette limitation, nous concevons un modèle de récompense pour simuler la génération utilisateur et personnaliser la stratégie d'échantillonnage. Des expériences approfondies ont démontré qu'un nombre limité d'échantillons DPO peut aligner les préférences d'intérêt des utilisateurs et améliorer significativement la qualité des résultats générés. Nous avons déployé OneRec dans la scène principale de Kuaishou, obtenant une augmentation de 1,6 % du temps de visionnage, ce qui représente une amélioration substantielle.
English
Recently, generative retrieval-based recommendation systems have emerged as a
promising paradigm. However, most modern recommender systems adopt a
retrieve-and-rank strategy, where the generative model functions only as a
selector during the retrieval stage. In this paper, we propose OneRec, which
replaces the cascaded learning framework with a unified generative model. To
the best of our knowledge, this is the first end-to-end generative model that
significantly surpasses current complex and well-designed recommender systems
in real-world scenarios. Specifically, OneRec includes: 1) an encoder-decoder
structure, which encodes the user's historical behavior sequences and gradually
decodes the videos that the user may be interested in. We adopt sparse
Mixture-of-Experts (MoE) to scale model capacity without proportionally
increasing computational FLOPs. 2) a session-wise generation approach. In
contrast to traditional next-item prediction, we propose a session-wise
generation, which is more elegant and contextually coherent than point-by-point
generation that relies on hand-crafted rules to properly combine the generated
results. 3) an Iterative Preference Alignment module combined with Direct
Preference Optimization (DPO) to enhance the quality of the generated results.
Unlike DPO in NLP, a recommendation system typically has only one opportunity
to display results for each user's browsing request, making it impossible to
obtain positive and negative samples simultaneously. To address this
limitation, We design a reward model to simulate user generation and customize
the sampling strategy. Extensive experiments have demonstrated that a limited
number of DPO samples can align user interest preferences and significantly
improve the quality of generated results. We deployed OneRec in the main scene
of Kuaishou, achieving a 1.6\% increase in watch-time, which is a substantial
improvement.Summary
AI-Generated Summary