ChatPaper.aiChatPaper

Wukong: 대규모 추천 시스템을 위한 스케일링 법칙 연구

Wukong: Towards a Scaling Law for Large-Scale Recommendation

March 4, 2024
저자: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
cs.AI

초록

스케일링 법칙은 모델 품질의 지속적인 개선에 있어 중요한 역할을 합니다. 그러나 현재까지의 추천 모델들은 대규모 언어 모델 영역에서 관찰되는 것과 유사한 스케일링 법칙을 보여주지 못하고 있는데, 이는 그들의 스케일링 메커니즘이 비효율적이기 때문입니다. 이러한 한계는 점점 더 복잡해지는 실제 데이터셋에 이러한 모델들을 적용하는 데 있어 상당한 어려움을 야기합니다. 본 논문에서는 순수하게 스택된 인수분해 기계(factorization machines)에 기반한 효과적인 네트워크 아키텍처와 상호 보완적인 스케일링 전략을 제안하며, 이를 통칭하여 Wukong이라고 명명합니다. Wukong은 추천 영역에서 스케일링 법칙을 확립하기 위해 설계되었습니다. Wukong의 독특한 설계는 단순히 더 높고 넓은 레이어를 통해 다양한 차수의 상호작용을 포착할 수 있게 합니다. 우리는 6개의 공개 데이터셋에 대해 광범위한 평가를 수행했으며, 그 결과 Wukong이 품질 면에서 최신 모델들을 꾸준히 능가함을 입증했습니다. 또한, 내부의 대규모 데이터셋에서 Wukong의 확장성을 평가했습니다. 그 결과, Wukong은 최신 모델들에 비해 품질적 우위를 유지하면서도, 모델 복잡도가 두 자릿수에 걸쳐 증가하는 동안 스케일링 법칙을 유지하며, 100 Gflop 이상 또는 GPT-3/LLaMa-2 수준의 총 학습 계산량까지 확장 가능함을 보여주었습니다. 이는 기존 기술들이 달성하지 못한 성과입니다.
English
Scaling laws play an instrumental role in the sustainable improvement in model quality. Unfortunately, recommendation models to date do not exhibit such laws similar to those observed in the domain of large language models, due to the inefficiencies of their upscaling mechanisms. This limitation poses significant challenges in adapting these models to increasingly more complex real-world datasets. In this paper, we propose an effective network architecture based purely on stacked factorization machines, and a synergistic upscaling strategy, collectively dubbed Wukong, to establish a scaling law in the domain of recommendation. Wukong's unique design makes it possible to capture diverse, any-order of interactions simply through taller and wider layers. We conducted extensive evaluations on six public datasets, and our results demonstrate that Wukong consistently outperforms state-of-the-art models quality-wise. Further, we assessed Wukong's scalability on an internal, large-scale dataset. The results show that Wukong retains its superiority in quality over state-of-the-art models, while holding the scaling law across two orders of magnitude in model complexity, extending beyond 100 Gflop or equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior arts fall short.
PDF171December 15, 2024