協調フィルタリングにおける埋め込みスケーリングの理解
Understanding Embedding Scaling in Collaborative Filtering
September 19, 2025
著者: Zhuangzhuang He, Zhou Kaiyu, Haoyue Bai, Fengbin Zhu, Yonghui Yang
cs.AI
要旨
レコメンデーションモデルの大規模化は、最も広く議論されているトピックの一つとなっています。最近の取り組みは、埋め込み次元のスケーリングを超えたコンポーネントに焦点を当てています。なぜなら、埋め込みのスケーリングは性能の低下を引き起こすと考えられているからです。埋め込みに関するいくつかの初期の観察はあるものの、その非スケーラビリティの根本的な原因はまだ明らかではありません。さらに、性能の低下が異なるタイプのモデルやデータセットにわたって発生するかどうかは、まだ未開拓の領域です。埋め込み次元が性能に及ぼす影響に関して、私たちは10のデータセットに対して、スパース性レベルとスケールが異なる4つの代表的な古典的アーキテクチャを用いて大規模な実験を行いました。驚くべきことに、二つの新しい現象を観察しました:二峰性と対数曲線です。前者では、埋め込み次元が増加するにつれて、性能が最初に向上し、その後低下し、再び上昇し、最終的に低下します。後者では、完璧な対数曲線を示します。私たちの貢献は三つあります。第一に、協調フィルタリングモデルのスケーリング時に二つの新しい現象を発見しました。第二に、二峰性現象の根本的な原因を理解しました。最後に、協調フィルタリングモデルのノイズ耐性を理論的に分析し、その結果が経験的観察と一致することを示しました。
English
Scaling recommendation models into large recommendation models has become one
of the most widely discussed topics. Recent efforts focus on components beyond
the scaling embedding dimension, as it is believed that scaling embedding may
lead to performance degradation. Although there have been some initial
observations on embedding, the root cause of their non-scalability remains
unclear. Moreover, whether performance degradation occurs across different
types of models and datasets is still an unexplored area. Regarding the effect
of embedding dimensions on performance, we conduct large-scale experiments
across 10 datasets with varying sparsity levels and scales, using 4
representative classical architectures. We surprisingly observe two novel
phenomenon: double-peak and logarithmic. For the former, as the embedding
dimension increases, performance first improves, then declines, rises again,
and eventually drops. For the latter, it exhibits a perfect logarithmic curve.
Our contributions are threefold. First, we discover two novel phenomena when
scaling collaborative filtering models. Second, we gain an understanding of the
underlying causes of the double-peak phenomenon. Lastly, we theoretically
analyze the noise robustness of collaborative filtering models, with results
matching empirical observations.