Понимание масштабирования эмбеддингов в коллаборативной фильтрации
Understanding Embedding Scaling in Collaborative Filtering
September 19, 2025
Авторы: Zhuangzhuang He, Zhou Kaiyu, Haoyue Bai, Fengbin Zhu, Yonghui Yang
cs.AI
Аннотация
Масштабирование моделей рекомендаций в крупные рекомендательные системы стало одной из наиболее обсуждаемых тем. Последние исследования сосредоточены на компонентах, выходящих за рамки масштабирования размерности эмбеддингов, поскольку считается, что увеличение размерности эмбеддингов может привести к ухудшению производительности. Хотя уже были сделаны некоторые первоначальные наблюдения относительно эмбеддингов, основная причина их неспособности к масштабированию остается неясной. Более того, вопрос о том, происходит ли ухудшение производительности в различных типах моделей и наборах данных, остается малоизученным. Влияние размерности эмбеддингов на производительность мы исследуем в рамках масштабных экспериментов на 10 наборах данных с различными уровнями разреженности и масштабами, используя 4 классические архитектуры. Мы неожиданно обнаруживаем два новых явления: двойной пик и логарифмическую зависимость. В первом случае, по мере увеличения размерности эмбеддингов, производительность сначала улучшается, затем ухудшается, снова возрастает и в конечном итоге падает. Во втором случае наблюдается идеальная логарифмическая кривая. Наш вклад заключается в трех аспектах. Во-первых, мы обнаруживаем два новых явления при масштабировании моделей коллаборативной фильтрации. Во-вторых, мы получаем понимание причин возникновения явления двойного пика. В-третьих, мы теоретически анализируем устойчивость моделей коллаборативной фильтрации к шуму, и результаты совпадают с эмпирическими наблюдениями.
English
Scaling recommendation models into large recommendation models has become one
of the most widely discussed topics. Recent efforts focus on components beyond
the scaling embedding dimension, as it is believed that scaling embedding may
lead to performance degradation. Although there have been some initial
observations on embedding, the root cause of their non-scalability remains
unclear. Moreover, whether performance degradation occurs across different
types of models and datasets is still an unexplored area. Regarding the effect
of embedding dimensions on performance, we conduct large-scale experiments
across 10 datasets with varying sparsity levels and scales, using 4
representative classical architectures. We surprisingly observe two novel
phenomenon: double-peak and logarithmic. For the former, as the embedding
dimension increases, performance first improves, then declines, rises again,
and eventually drops. For the latter, it exhibits a perfect logarithmic curve.
Our contributions are threefold. First, we discover two novel phenomena when
scaling collaborative filtering models. Second, we gain an understanding of the
underlying causes of the double-peak phenomenon. Lastly, we theoretically
analyze the noise robustness of collaborative filtering models, with results
matching empirical observations.