Verständnis der Skalierung von Einbettungen im kollaborativen Filtern
Understanding Embedding Scaling in Collaborative Filtering
September 19, 2025
papers.authors: Zhuangzhuang He, Zhou Kaiyu, Haoyue Bai, Fengbin Zhu, Yonghui Yang
cs.AI
papers.abstract
Die Skalierung von Empfehlungsmodellen zu großen Empfehlungsmodellen ist zu einem der am häufigsten diskutierten Themen geworden. Jüngste Bemühungen konzentrieren sich auf Komponenten, die über die Skalierung der Embedding-Dimension hinausgehen, da angenommen wird, dass die Skalierung von Embeddings zu Leistungseinbußen führen kann. Obwohl es bereits einige erste Beobachtungen zu Embeddings gibt, bleibt die Ursache für deren mangelnde Skalierbarkeit unklar. Darüber hinaus ist es noch ein unerforschtes Gebiet, ob Leistungsverschlechterungen bei verschiedenen Modelltypen und Datensätzen auftreten. In Bezug auf die Auswirkungen der Embedding-Dimensionen auf die Leistung führen wir groß angelegte Experimente mit 10 Datensätzen unterschiedlicher Sparsity-Level und Skalen durch, wobei wir 4 repräsentative klassische Architekturen verwenden. Überraschenderweise beobachten wir zwei neuartige Phänomene: Doppelgipfel und logarithmisch. Bei ersterem verbessert sich die Leistung zunächst mit zunehmender Embedding-Dimension, verschlechtert sich dann, steigt erneut an und fällt schließlich ab. Bei letzterem zeigt sich eine perfekte logarithmische Kurve. Unsere Beiträge sind dreifach. Erstens entdecken wir zwei neuartige Phänomene bei der Skalierung von kollaborativen Filtermethoden. Zweitens gewinnen wir ein Verständnis für die zugrunde liegenden Ursachen des Doppelgipfel-Phänomens. Schließlich analysieren wir theoretisch die Rauschrobustheit von kollaborativen Filtermethoden, wobei die Ergebnisse mit den empirischen Beobachtungen übereinstimmen.
English
Scaling recommendation models into large recommendation models has become one
of the most widely discussed topics. Recent efforts focus on components beyond
the scaling embedding dimension, as it is believed that scaling embedding may
lead to performance degradation. Although there have been some initial
observations on embedding, the root cause of their non-scalability remains
unclear. Moreover, whether performance degradation occurs across different
types of models and datasets is still an unexplored area. Regarding the effect
of embedding dimensions on performance, we conduct large-scale experiments
across 10 datasets with varying sparsity levels and scales, using 4
representative classical architectures. We surprisingly observe two novel
phenomenon: double-peak and logarithmic. For the former, as the embedding
dimension increases, performance first improves, then declines, rises again,
and eventually drops. For the latter, it exhibits a perfect logarithmic curve.
Our contributions are threefold. First, we discover two novel phenomena when
scaling collaborative filtering models. Second, we gain an understanding of the
underlying causes of the double-peak phenomenon. Lastly, we theoretically
analyze the noise robustness of collaborative filtering models, with results
matching empirical observations.