Wukong: Verso una legge di scalabilità per i sistemi di raccomandazione su larga scala
Wukong: Towards a Scaling Law for Large-Scale Recommendation
March 4, 2024
Autori: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
cs.AI
Abstract
Le leggi di scala svolgono un ruolo fondamentale nel miglioramento sostenibile della qualità dei modelli. Sfortunatamente, i modelli di raccomandazione finora non mostrano tali leggi simili a quelle osservate nel dominio dei grandi modelli linguistici, a causa delle inefficienze dei loro meccanismi di scalabilità. Questa limitazione pone sfide significative nell'adattare questi modelli a dataset del mondo reale sempre più complessi. In questo articolo, proponiamo un'architettura di rete efficace basata esclusivamente su macchine di fattorizzazione impilate e una strategia di scalabilità sinergica, collettivamente denominata Wukong, per stabilire una legge di scala nel dominio della raccomandazione. Il design unico di Wukong rende possibile catturare interazioni diverse e di qualsiasi ordine semplicemente attraverso strati più alti e più ampi. Abbiamo condotto valutazioni estese su sei dataset pubblici, e i nostri risultati dimostrano che Wukong supera costantemente i modelli all'avanguardia in termini di qualità. Inoltre, abbiamo valutato la scalabilità di Wukong su un dataset interno su larga scala. I risultati mostrano che Wukong mantiene la sua superiorità in qualità rispetto ai modelli all'avanguardia, rispettando la legge di scala attraverso due ordini di grandezza nella complessità del modello, estendendosi oltre i 100 Gflop o equivalentemente fino alla scala di calcolo totale di addestramento di GPT-3/LLaMa-2, dove i precedenti approcci falliscono.
English
Scaling laws play an instrumental role in the sustainable improvement in
model quality. Unfortunately, recommendation models to date do not exhibit such
laws similar to those observed in the domain of large language models, due to
the inefficiencies of their upscaling mechanisms. This limitation poses
significant challenges in adapting these models to increasingly more complex
real-world datasets. In this paper, we propose an effective network
architecture based purely on stacked factorization machines, and a synergistic
upscaling strategy, collectively dubbed Wukong, to establish a scaling law in
the domain of recommendation. Wukong's unique design makes it possible to
capture diverse, any-order of interactions simply through taller and wider
layers. We conducted extensive evaluations on six public datasets, and our
results demonstrate that Wukong consistently outperforms state-of-the-art
models quality-wise. Further, we assessed Wukong's scalability on an internal,
large-scale dataset. The results show that Wukong retains its superiority in
quality over state-of-the-art models, while holding the scaling law across two
orders of magnitude in model complexity, extending beyond 100 Gflop or
equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior
arts fall short.