UniMixer: Унифицированная архитектура для законов масштабирования в рекомендательных системах
UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
April 1, 2026
Авторы: Mingming Ha, Guanchen Wang, Linxun Chen, Xuan Rao, Yuexin Shi, Tianbao Ma, Zhaojie Liu, Yunqian Fan, Zilong Lu, Yanan Niu, Han Li, Kun Gai
cs.AI
Аннотация
В последние годы законы масштабирования рекомендательных моделей привлекают все больше внимания, поскольку они определяют взаимосвязь между производительностью и количеством параметров/FLOPs рекомендательных систем. В настоящее время существуют три основных архитектуры для достижения масштабирования в рекомендательных моделях, а именно методы на основе внимания, на основе TokenMixer и на основе факторизационных машин, которые демонстрируют фундаментальные различия как в философии проектирования, так и в архитектурной структуре. В данной статье мы предлагаем унифицированную архитектуру масштабирования для рекомендательных систем, а именно UniMixer, чтобы повысить эффективность масштабирования и создать единую теоретическую основу, объединяющую основные блоки масштабирования. Преобразуя основанный на правилах TokenMixer в эквивалентную параметризованную структуру, мы конструируем обобщенный параметризованный модуль смешения признаков, который позволяет оптимизировать и изучать шаблоны смешения токенов в процессе обучения модели. В то же время обобщенное параметризованное смешение токенов снимает ограничение TokenMixer, требующее равенства количества головок и количества токенов. Кроме того, мы создаем единую основу для проектирования модулей масштабирования рекомендательных систем, которая устанавливает связи между методами на основе внимания, TokenMixer и факторизационных машин. Для дальнейшего повышения отдачи от масштабирования разработан облегченный модуль UniMixing, UniMixing-Lite, который дополнительно сокращает параметры модели и вычислительные затраты, одновременно значительно повышая производительность модели. Кривые масштабирования представлены на следующем рисунке. Проведены обширные офлайн- и онлайн-эксперименты, подтверждающие превосходные способности UniMixer к масштабированию.
English
In recent years, the scaling laws of recommendation models have attracted increasing attention, which govern the relationship between performance and parameters/FLOPs of recommenders. Currently, there are three mainstream architectures for achieving scaling in recommendation models, namely attention-based, TokenMixer-based, and factorization-machine-based methods, which exhibit fundamental differences in both design philosophy and architectural structure. In this paper, we propose a unified scaling architecture for recommendation systems, namely UniMixer, to improve scaling efficiency and establish a unified theoretical framework that unifies the mainstream scaling blocks. By transforming the rule-based TokenMixer to an equivalent parameterized structure, we construct a generalized parameterized feature mixing module that allows the token mixing patterns to be optimized and learned during model training. Meanwhile, the generalized parameterized token mixing removes the constraint in TokenMixer that requires the number of heads to be equal to the number of tokens. Furthermore, we establish a unified scaling module design framework for recommender systems, which bridges the connections among attention-based, TokenMixer-based, and factorization-machine-based methods. To further boost scaling ROI, a lightweight UniMixing module is designed, UniMixing-Lite, which further compresses the model parameters and computational cost while significantly improve the model performance. The scaling curves are shown in the following figure. Extensive offline and online experiments are conducted to verify the superior scaling abilities of UniMixer.