ChatPaper.aiChatPaper

OneRec: 生成型レコメンダーと反復的選好アラインメントによる検索とランキングの統合

OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

February 26, 2025
著者: Jiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou
cs.AI

要旨

近年、生成型検索ベースの推薦システムが有望なパラダイムとして登場しています。しかし、現代の推薦システムの多くは、検索段階でのセレクターとしてのみ生成モデルを機能させる「検索とランク付け」戦略を採用しています。本論文では、カスケード型学習フレームワークを統一生成モデルに置き換えるOneRecを提案します。私たちの知る限り、これは現実世界のシナリオにおいて、現在の複雑で精巧に設計された推薦システムを大幅に上回る初めてのエンドツーエンド生成モデルです。具体的には、OneRecは以下の要素を含みます:1)エンコーダ-デコーダ構造。ユーザーの過去の行動シーケンスをエンコードし、ユーザーが興味を持つ可能性のある動画を徐々にデコードします。計算量のFLOPsを比例的に増加させることなくモデル容量を拡張するため、スパースなMixture-of-Experts(MoE)を採用しています。2)セッションワイズ生成アプローチ。従来の次アイテム予測とは対照的に、手動で作成したルールに依存して生成結果を適切に組み合わせるポイントバイポイント生成よりも、より洗練され文脈的に一貫性のあるセッションワイズ生成を提案します。3)Direct Preference Optimization(DPO)と組み合わせた反復的選好整合モジュール。生成結果の品質を向上させるため、NLPにおけるDPOとは異なり、推薦システムは通常、各ユーザーの閲覧リクエストに対して結果を表示する機会が一度しかないため、正例と負例を同時に取得することができません。この制限に対処するため、ユーザー生成をシミュレートし、サンプリング戦略をカスタマイズする報酬モデルを設計しました。大規模な実験により、限られた数のDPOサンプルでもユーザーの興味選好を整合させ、生成結果の品質を大幅に向上させることが実証されました。OneRecを快手のメインシーンに導入し、視聴時間が1.6%増加するという大幅な改善を達成しました。
English
Recently, generative retrieval-based recommendation systems have emerged as a promising paradigm. However, most modern recommender systems adopt a retrieve-and-rank strategy, where the generative model functions only as a selector during the retrieval stage. In this paper, we propose OneRec, which replaces the cascaded learning framework with a unified generative model. To the best of our knowledge, this is the first end-to-end generative model that significantly surpasses current complex and well-designed recommender systems in real-world scenarios. Specifically, OneRec includes: 1) an encoder-decoder structure, which encodes the user's historical behavior sequences and gradually decodes the videos that the user may be interested in. We adopt sparse Mixture-of-Experts (MoE) to scale model capacity without proportionally increasing computational FLOPs. 2) a session-wise generation approach. In contrast to traditional next-item prediction, we propose a session-wise generation, which is more elegant and contextually coherent than point-by-point generation that relies on hand-crafted rules to properly combine the generated results. 3) an Iterative Preference Alignment module combined with Direct Preference Optimization (DPO) to enhance the quality of the generated results. Unlike DPO in NLP, a recommendation system typically has only one opportunity to display results for each user's browsing request, making it impossible to obtain positive and negative samples simultaneously. To address this limitation, We design a reward model to simulate user generation and customize the sampling strategy. Extensive experiments have demonstrated that a limited number of DPO samples can align user interest preferences and significantly improve the quality of generated results. We deployed OneRec in the main scene of Kuaishou, achieving a 1.6\% increase in watch-time, which is a substantial improvement.

Summary

AI-Generated Summary

PDF252March 4, 2025