OneRec: Unificare Recupero e Classificazione con un Recommender Generativo e Allineamento Iterativo delle Preferenze
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment
February 26, 2025
Autori: Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou
cs.AI
Abstract
Recentemente, i sistemi di raccomandazione basati su retrieval generativo sono emersi come un paradigma promettente. Tuttavia, la maggior parte dei moderni sistemi di raccomandazione adotta una strategia di recupero e classificazione, in cui il modello generativo funge solo da selettore durante la fase di recupero. In questo articolo, proponiamo OneRec, che sostituisce il framework di apprendimento a cascata con un modello generativo unificato. Per quanto ne sappiamo, questo è il primo modello generativo end-to-end che supera significativamente i complessi e ben progettati sistemi di raccomandazione attuali in scenari reali. Nello specifico, OneRec include: 1) una struttura encoder-decoder, che codifica le sequenze di comportamento storico dell'utente e decodifica gradualmente i video che potrebbero interessare l'utente. Adottiamo una versione sparsa di Mixture-of-Experts (MoE) per scalare la capacità del modello senza aumentare proporzionalmente i FLOP computazionali. 2) un approccio di generazione per sessione. A differenza della tradizionale previsione del prossimo elemento, proponiamo una generazione per sessione, che è più elegante e coerente dal punto di vista contestuale rispetto alla generazione punto per punto che si basa su regole artigianali per combinare correttamente i risultati generati. 3) un modulo di Allineamento Iterativo delle Preferenze combinato con l'ottimizzazione diretta delle preferenze (DPO) per migliorare la qualità dei risultati generati. A differenza del DPO nel NLP, un sistema di raccomandazione ha tipicamente una sola opportunità di visualizzare i risultati per ogni richiesta di navigazione dell'utente, rendendo impossibile ottenere campioni positivi e negativi simultaneamente. Per affrontare questa limitazione, abbiamo progettato un modello di ricompensa per simulare la generazione dell'utente e personalizzare la strategia di campionamento. Esperimenti estensivi hanno dimostrato che un numero limitato di campioni DPO può allineare le preferenze di interesse dell'utente e migliorare significativamente la qualità dei risultati generati. Abbiamo implementato OneRec nella scena principale di Kuaishou, ottenendo un aumento dell'1,6% nel tempo di visualizzazione, che rappresenta un miglioramento sostanziale.
English
Recently, generative retrieval-based recommendation systems have emerged as a
promising paradigm. However, most modern recommender systems adopt a
retrieve-and-rank strategy, where the generative model functions only as a
selector during the retrieval stage. In this paper, we propose OneRec, which
replaces the cascaded learning framework with a unified generative model. To
the best of our knowledge, this is the first end-to-end generative model that
significantly surpasses current complex and well-designed recommender systems
in real-world scenarios. Specifically, OneRec includes: 1) an encoder-decoder
structure, which encodes the user's historical behavior sequences and gradually
decodes the videos that the user may be interested in. We adopt sparse
Mixture-of-Experts (MoE) to scale model capacity without proportionally
increasing computational FLOPs. 2) a session-wise generation approach. In
contrast to traditional next-item prediction, we propose a session-wise
generation, which is more elegant and contextually coherent than point-by-point
generation that relies on hand-crafted rules to properly combine the generated
results. 3) an Iterative Preference Alignment module combined with Direct
Preference Optimization (DPO) to enhance the quality of the generated results.
Unlike DPO in NLP, a recommendation system typically has only one opportunity
to display results for each user's browsing request, making it impossible to
obtain positive and negative samples simultaneously. To address this
limitation, We design a reward model to simulate user generation and customize
the sampling strategy. Extensive experiments have demonstrated that a limited
number of DPO samples can align user interest preferences and significantly
improve the quality of generated results. We deployed OneRec in the main scene
of Kuaishou, achieving a 1.6\% increase in watch-time, which is a substantial
improvement.Summary
AI-Generated Summary