OneRec: Unificación de Recuperación y Clasificación con Recomendador Generativo y Alineación Iterativa de Preferencias
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment
February 26, 2025
Autores: Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou
cs.AI
Resumen
Recientemente, los sistemas de recomendación basados en recuperación generativa han surgido como un paradigma prometedor. Sin embargo, la mayoría de los sistemas de recomendación modernos adoptan una estrategia de recuperación y clasificación, donde el modelo generativo funciona únicamente como un selector durante la etapa de recuperación. En este artículo, proponemos OneRec, que reemplaza el marco de aprendizaje en cascada con un modelo generativo unificado. Hasta donde sabemos, este es el primer modelo generativo de extremo a extremo que supera significativamente a los sistemas de recomendación complejos y bien diseñados actuales en escenarios del mundo real. Específicamente, OneRec incluye: 1) una estructura de codificador-decodificador, que codifica las secuencias de comportamiento histórico del usuario y decodifica gradualmente los videos que podrían interesar al usuario. Adoptamos una mezcla dispersa de expertos (MoE) para escalar la capacidad del modelo sin aumentar proporcionalmente los FLOPs computacionales. 2) un enfoque de generación por sesión. En contraste con la predicción tradicional del siguiente ítem, proponemos una generación por sesión, que es más elegante y contextualmente coherente que la generación punto por punto que depende de reglas heurísticas para combinar adecuadamente los resultados generados. 3) un módulo de Alineación de Preferencias Iterativa combinado con Optimización Directa de Preferencias (DPO) para mejorar la calidad de los resultados generados. A diferencia del DPO en PLN, un sistema de recomendación típicamente tiene solo una oportunidad para mostrar resultados por cada solicitud de navegación del usuario, lo que hace imposible obtener muestras positivas y negativas simultáneamente. Para abordar esta limitación, diseñamos un modelo de recompensa para simular la generación del usuario y personalizar la estrategia de muestreo. Experimentos extensivos han demostrado que un número limitado de muestras de DPO puede alinear las preferencias de interés del usuario y mejorar significativamente la calidad de los resultados generados. Implementamos OneRec en la escena principal de Kuaishou, logrando un aumento del 1.6% en el tiempo de visualización, lo que representa una mejora sustancial.
English
Recently, generative retrieval-based recommendation systems have emerged as a
promising paradigm. However, most modern recommender systems adopt a
retrieve-and-rank strategy, where the generative model functions only as a
selector during the retrieval stage. In this paper, we propose OneRec, which
replaces the cascaded learning framework with a unified generative model. To
the best of our knowledge, this is the first end-to-end generative model that
significantly surpasses current complex and well-designed recommender systems
in real-world scenarios. Specifically, OneRec includes: 1) an encoder-decoder
structure, which encodes the user's historical behavior sequences and gradually
decodes the videos that the user may be interested in. We adopt sparse
Mixture-of-Experts (MoE) to scale model capacity without proportionally
increasing computational FLOPs. 2) a session-wise generation approach. In
contrast to traditional next-item prediction, we propose a session-wise
generation, which is more elegant and contextually coherent than point-by-point
generation that relies on hand-crafted rules to properly combine the generated
results. 3) an Iterative Preference Alignment module combined with Direct
Preference Optimization (DPO) to enhance the quality of the generated results.
Unlike DPO in NLP, a recommendation system typically has only one opportunity
to display results for each user's browsing request, making it impossible to
obtain positive and negative samples simultaneously. To address this
limitation, We design a reward model to simulate user generation and customize
the sampling strategy. Extensive experiments have demonstrated that a limited
number of DPO samples can align user interest preferences and significantly
improve the quality of generated results. We deployed OneRec in the main scene
of Kuaishou, achieving a 1.6\% increase in watch-time, which is a substantial
improvement.Summary
AI-Generated Summary