Wukong: Hacia una Ley de Escalabilidad para Sistemas de Recomendación a Gran Escala
Wukong: Towards a Scaling Law for Large-Scale Recommendation
March 4, 2024
Autores: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
cs.AI
Resumen
Las leyes de escalamiento desempeñan un papel fundamental en la mejora sostenible de la calidad de los modelos. Lamentablemente, los modelos de recomendación hasta la fecha no exhiben tales leyes similares a las observadas en el dominio de los modelos de lenguaje grandes, debido a las ineficiencias de sus mecanismos de escalamiento. Esta limitación plantea desafíos significativos al adaptar estos modelos a conjuntos de datos del mundo real cada vez más complejos. En este artículo, proponemos una arquitectura de red efectiva basada únicamente en máquinas de factorización apiladas, y una estrategia de escalamiento sinérgica, denominada colectivamente Wukong, para establecer una ley de escalamiento en el dominio de la recomendación. El diseño único de Wukong permite capturar interacciones diversas y de cualquier orden simplemente a través de capas más altas y anchas. Realizamos evaluaciones exhaustivas en seis conjuntos de datos públicos, y nuestros resultados demuestran que Wukong supera consistentemente a los modelos más avanzados en términos de calidad. Además, evaluamos la escalabilidad de Wukong en un conjunto de datos interno a gran escala. Los resultados muestran que Wukong mantiene su superioridad en calidad sobre los modelos más avanzados, mientras mantiene la ley de escalamiento en dos órdenes de magnitud de complejidad del modelo, extendiéndose más allá de 100 Gflop o equivalentemente hasta la escala de GPT-3/LLaMa-2 en el cómputo total de entrenamiento, donde los enfoques anteriores no logran hacerlo.
English
Scaling laws play an instrumental role in the sustainable improvement in
model quality. Unfortunately, recommendation models to date do not exhibit such
laws similar to those observed in the domain of large language models, due to
the inefficiencies of their upscaling mechanisms. This limitation poses
significant challenges in adapting these models to increasingly more complex
real-world datasets. In this paper, we propose an effective network
architecture based purely on stacked factorization machines, and a synergistic
upscaling strategy, collectively dubbed Wukong, to establish a scaling law in
the domain of recommendation. Wukong's unique design makes it possible to
capture diverse, any-order of interactions simply through taller and wider
layers. We conducted extensive evaluations on six public datasets, and our
results demonstrate that Wukong consistently outperforms state-of-the-art
models quality-wise. Further, we assessed Wukong's scalability on an internal,
large-scale dataset. The results show that Wukong retains its superiority in
quality over state-of-the-art models, while holding the scaling law across two
orders of magnitude in model complexity, extending beyond 100 Gflop or
equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior
arts fall short.