UniMixer: Een Uniforme Architectuur voor Schaalwetten in Aanbevelingssystemen

Samenvatting

De afgelopen jaren hebben de schaalwetten van aanbevelingsmodellen steeds meer aandacht gekregen, die de relatie tussen prestaties en parameters/FLOPs van aanbevelers beheersen. Momenteel zijn er drie hoofdarchitecturen voor het realiseren van schaling in aanbevelingsmodellen, namelijk op aandacht gebaseerde, op TokenMixer gebaseerde en op factorisatiemachines gebaseerde methoden, die fundamentele verschillen vertonen in zowel ontwerpfilosofie als architectuurstructuur. In dit artikel stellen we een uniforme schaalarchitectuur voor aanbevelingssystemen voor, genaamd UniMixer, om de schaalefficiëntie te verbeteren en een uniform theoretisch kader te creëren dat de hoofdstroom schaalblokken verenigt. Door de op regels gebaseerde TokenMixer om te zetten naar een equivalente geparametriseerde structuur, construeren we een gegeneraliseerde geparametriseerde kenmengmodule die toelaat dat de tokenmengpatronen worden geoptimaliseerd en geleerd tijdens de modeltraining. Tegelijkertijd verwijdert de gegeneraliseerde geparametriseerde tokenmenging de beperking in TokenMixer die vereist dat het aantal koppen gelijk is aan het aantal tokens. Verder stellen we een uniform ontwerpkader voor schaalmodules voor aanbevelingssystemen op, dat de verbindingen legt tussen op aandacht gebaseerde, op TokenMixer gebaseerde en op factorisatiemachines gebaseerde methoden. Om de schaal-ROI verder te vergroten, is een lichtgewicht UniMixing-module ontworpen, UniMixing-Lite, die de modelparameters en rekenkosten verder comprimeert terwijl de modelprestaties aanzienlijk worden verbeterd. De schaalcurves worden getoond in de volgende figuur. Uitgebreide offline en online experimenten worden uitgevoerd om de superieure schaalvermogens van UniMixer te verifiëren.

English

In recent years, the scaling laws of recommendation models have attracted increasing attention, which govern the relationship between performance and parameters/FLOPs of recommenders. Currently, there are three mainstream architectures for achieving scaling in recommendation models, namely attention-based, TokenMixer-based, and factorization-machine-based methods, which exhibit fundamental differences in both design philosophy and architectural structure. In this paper, we propose a unified scaling architecture for recommendation systems, namely UniMixer, to improve scaling efficiency and establish a unified theoretical framework that unifies the mainstream scaling blocks. By transforming the rule-based TokenMixer to an equivalent parameterized structure, we construct a generalized parameterized feature mixing module that allows the token mixing patterns to be optimized and learned during model training. Meanwhile, the generalized parameterized token mixing removes the constraint in TokenMixer that requires the number of heads to be equal to the number of tokens. Furthermore, we establish a unified scaling module design framework for recommender systems, which bridges the connections among attention-based, TokenMixer-based, and factorization-machine-based methods. To further boost scaling ROI, a lightweight UniMixing module is designed, UniMixing-Lite, which further compresses the model parameters and computational cost while significantly improve the model performance. The scaling curves are shown in the following figure. Extensive offline and online experiments are conducted to verify the superior scaling abilities of UniMixer.

UniMixer: Een Uniforme Architectuur voor Schaalwetten in Aanbevelingssystemen

UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

Samenvatting

Support