UniMixer: Eine einheitliche Architektur für Skalierungsgesetze in Empfehlungssystemen

Zusammenfassung

In den letzten Jahren haben die Skalierungsgesetze von Empfehlungsmodellen zunehmend an Aufmerksamkeit gewonnen, welche die Beziehung zwischen Leistung und Parametern/FLOPs von Empfehlungssystemen bestimmen. Derzeit gibt es drei Hauptarchitekturen zur Erreichung von Skalierung in Empfehlungsmodellen, nämlich auf Aufmerksamkeit (Attention) basierende, auf TokenMixer basierende und auf Faktorisierungsmaschinen (Factorization Machines) basierende Methoden, die grundlegende Unterschiede sowohl im Designkonzept als auch in der Architekturstruktur aufweisen. In diesem Artikel schlagen wir eine einheitliche Skalierungsarchitektur für Empfehlungssysteme vor, namens UniMixer, um die Skalierungseffizienz zu verbessern und einen einheitlichen theoretischen Rahmen zu schaffen, der die gängigen Skalierungsblöcke vereint. Durch die Transformation des regelbasierten TokenMixers in eine äquivalente parametrisierte Struktur konstruieren wir ein generalisiertes parametrisiertes Feature-Mixing-Modul, das es ermöglicht, die Token-Mixing-Muster während des Modelltrainings zu optimieren und zu erlernen. Gleichzeitig hebt das generalisierte parametrisierte Token-Mixing die Einschränkung im TokenMixer auf, die erfordert, dass die Anzahl der Köpfe (Heads) gleich der Anzahl der Token sein muss. Darüber hinaus etablieren wir einen einheitlichen Rahmen für das Design von Skalierungsmodulen für Empfehlungssysteme, der die Verbindungen zwischen auf Aufmerksamkeit basierenden, auf TokenMixer basierenden und auf Faktorisierungsmaschinen basierenden Methoden herstellt. Um die Skalierungsrendite (ROI) weiter zu steigern, wird ein leichtgewichtiges UniMixing-Modul entworfen, UniMixing-Lite, das die Modellparameter und Rechenkosten weiter komprimiert und gleichzeitig die Modellleistung signifikant verbessert. Die Skalierungskurven sind in der folgenden Abbildung dargestellt. Umfangreiche Offline- und Online-Experimente werden durchgeführt, um die überlegenen Skalierungsfähigkeiten von UniMixer zu verifizieren.

English

In recent years, the scaling laws of recommendation models have attracted increasing attention, which govern the relationship between performance and parameters/FLOPs of recommenders. Currently, there are three mainstream architectures for achieving scaling in recommendation models, namely attention-based, TokenMixer-based, and factorization-machine-based methods, which exhibit fundamental differences in both design philosophy and architectural structure. In this paper, we propose a unified scaling architecture for recommendation systems, namely UniMixer, to improve scaling efficiency and establish a unified theoretical framework that unifies the mainstream scaling blocks. By transforming the rule-based TokenMixer to an equivalent parameterized structure, we construct a generalized parameterized feature mixing module that allows the token mixing patterns to be optimized and learned during model training. Meanwhile, the generalized parameterized token mixing removes the constraint in TokenMixer that requires the number of heads to be equal to the number of tokens. Furthermore, we establish a unified scaling module design framework for recommender systems, which bridges the connections among attention-based, TokenMixer-based, and factorization-machine-based methods. To further boost scaling ROI, a lightweight UniMixing module is designed, UniMixing-Lite, which further compresses the model parameters and computational cost while significantly improve the model performance. The scaling curves are shown in the following figure. Extensive offline and online experiments are conducted to verify the superior scaling abilities of UniMixer.

UniMixer: Eine einheitliche Architektur für Skalierungsgesetze in Empfehlungssystemen

UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

Zusammenfassung

Support