UniMixer : Une architecture unifiée pour les lois d'échelle dans les systèmes de recommandation

Résumé

Ces dernières années, les lois d'échelle des modèles de recommandation ont suscité une attention croissante, car elles régissent la relation entre les performances et les paramètres/FLOPs des systèmes de recommandation. Actuellement, trois architectures principales permettent d'atteindre cette mise à l'échelle : les méthodes basées sur l'attention, sur TokenMixer et sur les machines à factorisation, qui présentent des différences fondamentales tant dans leur philosophie de conception que dans leur structure architecturale. Dans cet article, nous proposons une architecture d'échelle unifiée pour les systèmes de recommandation, nommée UniMixer, visant à améliorer l'efficacité de la mise à l'échelle et à établir un cadre théorique unifié intégrant les principaux blocs de scaling. En transformant le TokenMixer à base de règles en une structure paramétrée équivalente, nous construisons un module de mélange de caractéristiques paramétré généralisé permettant d'optimiser et d'apprendre les patterns de mélange de tokens durant l'entraînement du modèle. Par ailleurs, ce mécanisme généralisé lève la contrainte du TokenMixer exigeant que le nombre de têtes soit égal au nombre de tokens. Nous établissons également un cadre de conception unifié pour les modules de mise à l'échelle dans les systèmes de recommandation, reliant les approches attention, TokenMixer et machines à factorisation. Pour optimiser davantage le retour sur investissement de la mise à l'échelle, un module léger UniMixing, appelé UniMixing-Lite, est conçu pour compresser les paramètres et les coûts computationnels tout en améliorant significativement les performances du modèle. Les courbes de scaling sont présentées dans la figure suivante. Des expérimentations approfondies hors ligne et en ligne confirment les capacités d'échelle supérieures d’UniMixer.

English

In recent years, the scaling laws of recommendation models have attracted increasing attention, which govern the relationship between performance and parameters/FLOPs of recommenders. Currently, there are three mainstream architectures for achieving scaling in recommendation models, namely attention-based, TokenMixer-based, and factorization-machine-based methods, which exhibit fundamental differences in both design philosophy and architectural structure. In this paper, we propose a unified scaling architecture for recommendation systems, namely UniMixer, to improve scaling efficiency and establish a unified theoretical framework that unifies the mainstream scaling blocks. By transforming the rule-based TokenMixer to an equivalent parameterized structure, we construct a generalized parameterized feature mixing module that allows the token mixing patterns to be optimized and learned during model training. Meanwhile, the generalized parameterized token mixing removes the constraint in TokenMixer that requires the number of heads to be equal to the number of tokens. Furthermore, we establish a unified scaling module design framework for recommender systems, which bridges the connections among attention-based, TokenMixer-based, and factorization-machine-based methods. To further boost scaling ROI, a lightweight UniMixing module is designed, UniMixing-Lite, which further compresses the model parameters and computational cost while significantly improve the model performance. The scaling curves are shown in the following figure. Extensive offline and online experiments are conducted to verify the superior scaling abilities of UniMixer.

UniMixer : Une architecture unifiée pour les lois d'échelle dans les systèmes de recommandation

UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

Résumé

Support