Вуконг: к закону масштабирования для рекомендаций большого масштаба

Аннотация

Законы масштабирования играют ключевую роль в устойчивом улучшении качества модели. К сожалению, модели рекомендаций на сегодняшний день не проявляют таких законов, аналогичных наблюдаемым в области больших языковых моделей, из-за неэффективности их механизмов масштабирования. Это ограничение создает значительные проблемы в адаптации этих моделей к все более сложным реальным наборам данных. В данной статье мы предлагаем эффективную архитектуру сети, основанную исключительно на стековых машинах факторизации, и синергетическую стратегию масштабирования, совместно названные Wukong, чтобы установить закон масштабирования в области рекомендаций. Уникальное конструктивное решение Wukong позволяет захватывать разнообразные взаимодействия любого порядка просто через более высокие и широкие слои. Мы провели обширные оценки на шести общедоступных наборах данных, и наши результаты показывают, что Wukong последовательно превосходит модели последнего поколения по качеству. Кроме того, мы оценили масштабируемость Wukong на внутреннем крупномасштабном наборе данных. Результаты показывают, что Wukong сохраняет свое превосходство в качестве над моделями последнего поколения, удерживая закон масштабирования на протяжении двух порядков сложности модели, простираясь за пределы 100 Gflop или эквивалентно до масштаба общего вычисления обучения GPT-3/LLaMa-2, где предшествующие работы не справляются.

English

Scaling laws play an instrumental role in the sustainable improvement in model quality. Unfortunately, recommendation models to date do not exhibit such laws similar to those observed in the domain of large language models, due to the inefficiencies of their upscaling mechanisms. This limitation poses significant challenges in adapting these models to increasingly more complex real-world datasets. In this paper, we propose an effective network architecture based purely on stacked factorization machines, and a synergistic upscaling strategy, collectively dubbed Wukong, to establish a scaling law in the domain of recommendation. Wukong's unique design makes it possible to capture diverse, any-order of interactions simply through taller and wider layers. We conducted extensive evaluations on six public datasets, and our results demonstrate that Wukong consistently outperforms state-of-the-art models quality-wise. Further, we assessed Wukong's scalability on an internal, large-scale dataset. The results show that Wukong retains its superiority in quality over state-of-the-art models, while holding the scaling law across two orders of magnitude in model complexity, extending beyond 100 Gflop or equivalently up to GPT-3/LLaMa-2 scale of total training compute, where prior arts fall short.

Вуконг: к закону масштабирования для рекомендаций большого масштаба

Wukong: Towards a Scaling Law for Large-Scale Recommendation

Аннотация

Support