ChatPaper.aiChatPaper

Wukong: Rumando a uma Lei de Escalabilidade para Sistemas de Recomendação em Larga Escala

Wukong: Towards a Scaling Law for Large-Scale Recommendation

March 4, 2024
Autores: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
cs.AI

Resumo

As leis de escalonamento desempenham um papel fundamental na melhoria sustentável da qualidade dos modelos. Infelizmente, os modelos de recomendação até o momento não exibem tais leis, semelhantes às observadas no domínio dos grandes modelos de linguagem, devido às ineficiências de seus mecanismos de escalonamento. Essa limitação impõe desafios significativos na adaptação desses modelos a conjuntos de dados do mundo real cada vez mais complexos. Neste artigo, propomos uma arquitetura de rede eficaz baseada exclusivamente em máquinas de fatoração empilhadas e uma estratégia de escalonamento sinérgica, coletivamente denominada Wukong, para estabelecer uma lei de escalonamento no domínio da recomendação. O design único do Wukong torna possível capturar interações diversas e de qualquer ordem simplesmente por meio de camadas mais altas e mais amplas. Realizamos avaliações extensas em seis conjuntos de dados públicos, e nossos resultados demonstram que o Wukong supera consistentemente os modelos state-of-the-art em termos de qualidade. Além disso, avaliamos a escalabilidade do Wukong em um conjunto de dados interno em grande escala. Os resultados mostram que o Wukong mantém sua superioridade em qualidade sobre os modelos state-of-the-art, enquanto mantém a lei de escalonamento em duas ordens de magnitude na complexidade do modelo, estendendo-se além de 100 Gflop ou equivalentemente até a escala de computação total de treinamento do GPT-3/LLaMa-2, onde os trabalhos anteriores falham.
English
Scaling laws play an instrumental role in the sustainable improvement in model quality. Unfortunately, recommendation models to date do not exhibit such laws similar to those observed in the domain of large language models, due to the inefficiencies of their upscaling mechanisms. This limitation poses significant challenges in adapting these models to increasingly more complex real-world datasets. In this paper, we propose an effective network architecture based purely on stacked factorization machines, and a synergistic upscaling strategy, collectively dubbed Wukong, to establish a scaling law in the domain of recommendation. Wukong's unique design makes it possible to capture diverse, any-order of interactions simply through taller and wider layers. We conducted extensive evaluations on six public datasets, and our results demonstrate that Wukong consistently outperforms state-of-the-art models quality-wise. Further, we assessed Wukong's scalability on an internal, large-scale dataset. The results show that Wukong retains its superiority in quality over state-of-the-art models, while holding the scaling law across two orders of magnitude in model complexity, extending beyond 100 Gflop or equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior arts fall short.
PDF171February 7, 2026