UniMixer: Una Arquitectura Unificada para las Leyes de Escalado en Sistemas de Recomendación
UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
April 1, 2026
Autores: Mingming Ha, Guanchen Wang, Linxun Chen, Xuan Rao, Yuexin Shi, Tianbao Ma, Zhaojie Liu, Yunqian Fan, Zilong Lu, Yanan Niu, Han Li, Kun Gai
cs.AI
Resumen
En los últimos años, las leyes de escalado de los modelos de recomendación han atraído una atención creciente, las cuales rigen la relación entre el rendimiento y los parámetros/FLOPs de los recomendadores. Actualmente, existen tres arquitecturas principales para lograr el escalado en modelos de recomendación: los métodos basados en atención, los basados en TokenMixer y los basados en máquinas de factorización, que presentan diferencias fundamentales tanto en filosofía de diseño como en estructura arquitectónica. En este artículo, proponemos una arquitectura de escalado unificada para sistemas de recomendación, denominada UniMixer, para mejorar la eficiencia del escalado y establecer un marco teórico unificado que integre los bloques de escalado predominantes. Mediante la transformación del TokenMixer basado en reglas a una estructura parametrizada equivalente, construimos un módulo parametrizado generalizado de mezcla de características que permite optimizar y aprender los patrones de mezcla de tokens durante el entrenamiento del modelo. Asimismo, la mezcla parametrizada generalizada de tokens elimina la restricción en TokenMixer que requiere que el número de cabezales sea igual al número de tokens. Además, establecemos un marco de diseño unificado de módulos de escalado para sistemas de recomendación, que tiende puentes entre los métodos basados en atención, TokenMixer y máquinas de factorización. Para potenciar aún más el ROI del escalado, se diseña un módulo UniMixing ligero, UniMixing-Lite, que comprime aún más los parámetros del modelo y el coste computacional, a la vez que mejora significativamente el rendimiento del modelo. Las curvas de escalado se muestran en la siguiente figura. Se realizan exhaustivos experimentos offline y online para verificar las capacidades de escalado superiores de UniMixer.
English
In recent years, the scaling laws of recommendation models have attracted increasing attention, which govern the relationship between performance and parameters/FLOPs of recommenders. Currently, there are three mainstream architectures for achieving scaling in recommendation models, namely attention-based, TokenMixer-based, and factorization-machine-based methods, which exhibit fundamental differences in both design philosophy and architectural structure. In this paper, we propose a unified scaling architecture for recommendation systems, namely UniMixer, to improve scaling efficiency and establish a unified theoretical framework that unifies the mainstream scaling blocks. By transforming the rule-based TokenMixer to an equivalent parameterized structure, we construct a generalized parameterized feature mixing module that allows the token mixing patterns to be optimized and learned during model training. Meanwhile, the generalized parameterized token mixing removes the constraint in TokenMixer that requires the number of heads to be equal to the number of tokens. Furthermore, we establish a unified scaling module design framework for recommender systems, which bridges the connections among attention-based, TokenMixer-based, and factorization-machine-based methods. To further boost scaling ROI, a lightweight UniMixing module is designed, UniMixing-Lite, which further compresses the model parameters and computational cost while significantly improve the model performance. The scaling curves are shown in the following figure. Extensive offline and online experiments are conducted to verify the superior scaling abilities of UniMixer.