Wukong: Naar een schaalwet voor grootschalige aanbevelingssystemen
Wukong: Towards a Scaling Law for Large-Scale Recommendation
March 4, 2024
Auteurs: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
cs.AI
Samenvatting
Schaalwetten spelen een cruciale rol in de duurzame verbetering van modelkwaliteit. Helaas vertonen aanbevelingsmodellen tot op heden niet dergelijke wetten, vergelijkbaar met die waargenomen in het domein van grote taalmodellen, vanwege de inefficiënties van hun opschalingsmechanismen. Deze beperking vormt aanzienlijke uitdagingen bij het aanpassen van deze modellen aan steeds complexere real-world datasets. In dit artikel stellen we een effectieve netwerkarchitectuur voor, gebaseerd op gestapelde factorisatiemachines, en een synergetische opschalingsstrategie, gezamenlijk Wukong genoemd, om een schaalwet te vestigen in het domein van aanbevelingen. Het unieke ontwerp van Wukong maakt het mogelijk om diverse interacties van elke orde vast te leggen, simpelweg door hogere en bredere lagen. We hebben uitgebreide evaluaties uitgevoerd op zes openbare datasets, en onze resultaten tonen aan dat Wukong consistent beter presteert dan state-of-the-art modellen wat betreft kwaliteit. Verder hebben we de schaalbaarheid van Wukong beoordeeld op een interne, grootschalige dataset. De resultaten laten zien dat Wukong zijn superioriteit in kwaliteit behoudt ten opzichte van state-of-the-art modellen, terwijl het de schaalwet handhaaft over twee ordes van grootte in modelcomplexiteit, uitbreidend tot voorbij 100 Gflop of equivalent tot de schaal van totale trainingsberekening van GPT-3/LLaMa-2, waar eerdere methoden tekortschieten.
English
Scaling laws play an instrumental role in the sustainable improvement in
model quality. Unfortunately, recommendation models to date do not exhibit such
laws similar to those observed in the domain of large language models, due to
the inefficiencies of their upscaling mechanisms. This limitation poses
significant challenges in adapting these models to increasingly more complex
real-world datasets. In this paper, we propose an effective network
architecture based purely on stacked factorization machines, and a synergistic
upscaling strategy, collectively dubbed Wukong, to establish a scaling law in
the domain of recommendation. Wukong's unique design makes it possible to
capture diverse, any-order of interactions simply through taller and wider
layers. We conducted extensive evaluations on six public datasets, and our
results demonstrate that Wukong consistently outperforms state-of-the-art
models quality-wise. Further, we assessed Wukong's scalability on an internal,
large-scale dataset. The results show that Wukong retains its superiority in
quality over state-of-the-art models, while holding the scaling law across two
orders of magnitude in model complexity, extending beyond 100 Gflop or
equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior
arts fall short.