ChatPaper.aiChatPaper

Wukong: 大規模推薦システムにおけるスケーリング則に向けて

Wukong: Towards a Scaling Law for Large-Scale Recommendation

March 4, 2024
著者: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
cs.AI

要旨

スケーリング則は、モデル品質の持続的な向上において重要な役割を果たします。しかし、これまでの推薦モデルでは、大規模言語モデルの領域で観察されるようなスケーリング則が確認されていません。これは、それらのスケールアップメカニズムの非効率性によるものです。この制約は、これらのモデルをますます複雑化する現実世界のデータセットに適応させる上で重大な課題を提起しています。本論文では、純粋に積層型因子分解マシンに基づく効果的なネットワークアーキテクチャと、相乗的なスケールアップ戦略を提案し、これらを総称してWukongと名付け、推薦の領域でスケーリング則を確立します。Wukongのユニークな設計により、単に層を高く広くするだけで多様な任意次数の相互作用を捉えることが可能になります。6つの公開データセットで広範な評価を行った結果、Wukongは品質面で一貫して最先端のモデルを上回ることが示されました。さらに、内部の大規模データセットでWukongのスケーラビリティを評価しました。その結果、Wukongは最先端のモデルに対して品質面での優位性を維持しつつ、モデル複雑性の2桁にわたる範囲でスケーリング則を保持し、100 Gflop以上、あるいはGPT-3/LLaMa-2規模の総学習計算量にまで拡張できることが明らかになりました。これは、従来の技術では達成できなかった領域です。
English
Scaling laws play an instrumental role in the sustainable improvement in model quality. Unfortunately, recommendation models to date do not exhibit such laws similar to those observed in the domain of large language models, due to the inefficiencies of their upscaling mechanisms. This limitation poses significant challenges in adapting these models to increasingly more complex real-world datasets. In this paper, we propose an effective network architecture based purely on stacked factorization machines, and a synergistic upscaling strategy, collectively dubbed Wukong, to establish a scaling law in the domain of recommendation. Wukong's unique design makes it possible to capture diverse, any-order of interactions simply through taller and wider layers. We conducted extensive evaluations on six public datasets, and our results demonstrate that Wukong consistently outperforms state-of-the-art models quality-wise. Further, we assessed Wukong's scalability on an internal, large-scale dataset. The results show that Wukong retains its superiority in quality over state-of-the-art models, while holding the scaling law across two orders of magnitude in model complexity, extending beyond 100 Gflop or equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior arts fall short.
PDF171December 15, 2024