Вуконг: к закону масштабирования для рекомендаций большого масштаба
Wukong: Towards a Scaling Law for Large-Scale Recommendation
March 4, 2024
Авторы: Buyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen
cs.AI
Аннотация
Законы масштабирования играют ключевую роль в устойчивом улучшении качества модели. К сожалению, модели рекомендаций на сегодняшний день не проявляют таких законов, аналогичных наблюдаемым в области больших языковых моделей, из-за неэффективности их механизмов масштабирования. Это ограничение создает значительные проблемы в адаптации этих моделей к все более сложным реальным наборам данных. В данной статье мы предлагаем эффективную архитектуру сети, основанную исключительно на стековых машинах факторизации, и синергетическую стратегию масштабирования, совместно названные Wukong, чтобы установить закон масштабирования в области рекомендаций. Уникальное конструктивное решение Wukong позволяет захватывать разнообразные взаимодействия любого порядка просто через более высокие и широкие слои. Мы провели обширные оценки на шести общедоступных наборах данных, и наши результаты показывают, что Wukong последовательно превосходит модели последнего поколения по качеству. Кроме того, мы оценили масштабируемость Wukong на внутреннем крупномасштабном наборе данных. Результаты показывают, что Wukong сохраняет свое превосходство в качестве над моделями последнего поколения, удерживая закон масштабирования на протяжении двух порядков сложности модели, простираясь за пределы 100 Gflop или эквивалентно до масштаба общего вычисления обучения GPT-3/LLaMa-2, где предшествующие работы не справляются.
English
Scaling laws play an instrumental role in the sustainable improvement in
model quality. Unfortunately, recommendation models to date do not exhibit such
laws similar to those observed in the domain of large language models, due to
the inefficiencies of their upscaling mechanisms. This limitation poses
significant challenges in adapting these models to increasingly more complex
real-world datasets. In this paper, we propose an effective network
architecture based purely on stacked factorization machines, and a synergistic
upscaling strategy, collectively dubbed Wukong, to establish a scaling law in
the domain of recommendation. Wukong's unique design makes it possible to
capture diverse, any-order of interactions simply through taller and wider
layers. We conducted extensive evaluations on six public datasets, and our
results demonstrate that Wukong consistently outperforms state-of-the-art
models quality-wise. Further, we assessed Wukong's scalability on an internal,
large-scale dataset. The results show that Wukong retains its superiority in
quality over state-of-the-art models, while holding the scaling law across two
orders of magnitude in model complexity, extending beyond 100 Gflop or
equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior
arts fall short.