Compreendendo a Escala de Embeddings na Filtragem Colaborativa
Understanding Embedding Scaling in Collaborative Filtering
September 19, 2025
Autores: Zhuangzhuang He, Zhou Kaiyu, Haoyue Bai, Fengbin Zhu, Yonghui Yang
cs.AI
Resumo
A escalabilidade de modelos de recomendação para modelos de recomendação em grande escala tornou-se um dos tópicos mais amplamente discutidos. Esforços recentes concentram-se em componentes além da dimensão de escalonamento de embeddings, pois acredita-se que o escalonamento de embeddings pode levar à degradação de desempenho. Embora tenham sido feitas algumas observações iniciais sobre embeddings, a causa raiz de sua não escalabilidade permanece obscura. Além disso, se a degradação de desempenho ocorre em diferentes tipos de modelos e conjuntos de dados ainda é uma área inexplorada. Em relação ao efeito das dimensões de embedding no desempenho, conduzimos experimentos em larga escala em 10 conjuntos de dados com diferentes níveis de esparsidade e escalas, utilizando 4 arquiteturas clássicas representativas. Surpreendentemente, observamos dois novos fenômenos: duplo pico e logarítmico. No primeiro, à medida que a dimensão do embedding aumenta, o desempenho melhora inicialmente, depois decai, sobe novamente e, eventualmente, cai. No segundo, exibe uma curva logarítmica perfeita. Nossas contribuições são triplas. Primeiro, descobrimos dois novos fenômenos ao escalar modelos de filtragem colaborativa. Segundo, obtemos uma compreensão das causas subjacentes do fenômeno de duplo pico. Por fim, analisamos teoricamente a robustez ao ruído dos modelos de filtragem colaborativa, com resultados que correspondem às observações empíricas.
English
Scaling recommendation models into large recommendation models has become one
of the most widely discussed topics. Recent efforts focus on components beyond
the scaling embedding dimension, as it is believed that scaling embedding may
lead to performance degradation. Although there have been some initial
observations on embedding, the root cause of their non-scalability remains
unclear. Moreover, whether performance degradation occurs across different
types of models and datasets is still an unexplored area. Regarding the effect
of embedding dimensions on performance, we conduct large-scale experiments
across 10 datasets with varying sparsity levels and scales, using 4
representative classical architectures. We surprisingly observe two novel
phenomenon: double-peak and logarithmic. For the former, as the embedding
dimension increases, performance first improves, then declines, rises again,
and eventually drops. For the latter, it exhibits a perfect logarithmic curve.
Our contributions are threefold. First, we discover two novel phenomena when
scaling collaborative filtering models. Second, we gain an understanding of the
underlying causes of the double-peak phenomenon. Lastly, we theoretically
analyze the noise robustness of collaborative filtering models, with results
matching empirical observations.