Wukong: Auf dem Weg zu einem Skalierungsgesetz für Empfehlungssysteme im großen Maßstab
Wukong: Towards a Scaling Law for Large-Scale Recommendation
March 4, 2024
Autoren: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
cs.AI
Zusammenfassung
Skalierungsgesetze spielen eine entscheidende Rolle bei der nachhaltigen Verbesserung der Modellqualität. Leider zeigen Empfehlungsmodelle bis heute keine Gesetzmäßigkeiten ähnlich denen, die im Bereich großer Sprachmodelle beobachtet werden, aufgrund der Ineffizienzen ihrer Hochskalierungsmechanismen. Diese Einschränkung stellt bedeutende Herausforderungen bei der Anpassung dieser Modelle an zunehmend komplexere realweltliche Datensätze dar. In diesem Artikel schlagen wir eine effektive Netzwerkarchitektur vor, die ausschließlich auf gestapelten Faktorisierungsmaschinen basiert, sowie eine synergistische Hochskalierungsstrategie, die gemeinsam als Wukong bezeichnet werden, um ein Skalierungsgesetz im Bereich der Empfehlungen festzulegen. Das einzigartige Design von Wukong ermöglicht es, vielfältige Interaktionen beliebiger Ordnung einfach durch höhere und breitere Schichten zu erfassen. Wir führten umfangreiche Bewertungen an sechs öffentlichen Datensätzen durch, und unsere Ergebnisse zeigen, dass Wukong in Bezug auf die Qualität kontinuierlich besser abschneidet als Modelle auf dem neuesten Stand der Technik. Darüber hinaus haben wir Wukongs Skalierbarkeit an einem internen, groß angelegten Datensatz bewertet. Die Ergebnisse zeigen, dass Wukong seine Überlegenheit in Bezug auf die Qualität gegenüber modernsten Modellen beibehält, während es das Skalierungsgesetz über zwei Größenordnungen in der Modellkomplexität beibehält, das bis zu 100 Gflop oder äquivalent bis zur Gesamtschulungsberechnung im Maßstab von GPT-3/LLaMa-2 reicht, wo frühere Ansätze versagen.
English
Scaling laws play an instrumental role in the sustainable improvement in
model quality. Unfortunately, recommendation models to date do not exhibit such
laws similar to those observed in the domain of large language models, due to
the inefficiencies of their upscaling mechanisms. This limitation poses
significant challenges in adapting these models to increasingly more complex
real-world datasets. In this paper, we propose an effective network
architecture based purely on stacked factorization machines, and a synergistic
upscaling strategy, collectively dubbed Wukong, to establish a scaling law in
the domain of recommendation. Wukong's unique design makes it possible to
capture diverse, any-order of interactions simply through taller and wider
layers. We conducted extensive evaluations on six public datasets, and our
results demonstrate that Wukong consistently outperforms state-of-the-art
models quality-wise. Further, we assessed Wukong's scalability on an internal,
large-scale dataset. The results show that Wukong retains its superiority in
quality over state-of-the-art models, while holding the scaling law across two
orders of magnitude in model complexity, extending beyond 100 Gflop or
equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior
arts fall short.