Wukong : Vers une loi d'échelle pour les systèmes de recommandation à grande échelle
Wukong: Towards a Scaling Law for Large-Scale Recommendation
March 4, 2024
Auteurs: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
cs.AI
Résumé
Les lois d'échelle jouent un rôle crucial dans l'amélioration durable de la qualité des modèles. Malheureusement, les modèles de recommandation actuels ne présentent pas de telles lois, similaires à celles observées dans le domaine des grands modèles de langage, en raison de l'inefficacité de leurs mécanismes de mise à l'échelle. Cette limitation pose des défis importants pour l'adaptation de ces modèles à des ensembles de données réels de plus en plus complexes. Dans cet article, nous proposons une architecture de réseau efficace basée uniquement sur des machines de factorisation empilées, ainsi qu'une stratégie de mise à l'échelle synergétique, collectivement appelée Wukong, pour établir une loi d'échelle dans le domaine de la recommandation. La conception unique de Wukong permet de capturer des interactions diverses et d'ordre quelconque simplement par des couches plus hautes et plus larges. Nous avons mené des évaluations approfondies sur six ensembles de données publics, et nos résultats montrent que Wukong surpasse systématiquement les modèles de pointe en termes de qualité. De plus, nous avons évalué l'évolutivité de Wukong sur un ensemble de données interne à grande échelle. Les résultats montrent que Wukong conserve sa supériorité en qualité par rapport aux modèles de pointe, tout en respectant la loi d'échelle sur deux ordres de grandeur de complexité du modèle, s'étendant au-delà de 100 Gflop ou équivalemment jusqu'à l'échelle de calcul d'entraînement totale de GPT-3/LLaMa-2, là où les approches précédentes échouent.
English
Scaling laws play an instrumental role in the sustainable improvement in
model quality. Unfortunately, recommendation models to date do not exhibit such
laws similar to those observed in the domain of large language models, due to
the inefficiencies of their upscaling mechanisms. This limitation poses
significant challenges in adapting these models to increasingly more complex
real-world datasets. In this paper, we propose an effective network
architecture based purely on stacked factorization machines, and a synergistic
upscaling strategy, collectively dubbed Wukong, to establish a scaling law in
the domain of recommendation. Wukong's unique design makes it possible to
capture diverse, any-order of interactions simply through taller and wider
layers. We conducted extensive evaluations on six public datasets, and our
results demonstrate that Wukong consistently outperforms state-of-the-art
models quality-wise. Further, we assessed Wukong's scalability on an internal,
large-scale dataset. The results show that Wukong retains its superiority in
quality over state-of-the-art models, while holding the scaling law across two
orders of magnitude in model complexity, extending beyond 100 Gflop or
equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior
arts fall short.