Comprensión del Escalamiento de Incrustaciones en Filtrado Colaborativo
Understanding Embedding Scaling in Collaborative Filtering
September 19, 2025
Autores: Zhuangzhuang He, Zhou Kaiyu, Haoyue Bai, Fengbin Zhu, Yonghui Yang
cs.AI
Resumen
La escalabilidad de los modelos de recomendación hacia modelos de recomendación de gran escala se ha convertido en uno de los temas más discutidos. Los esfuerzos recientes se centran en componentes más allá de la dimensión de los embeddings escalados, ya que se cree que escalar los embeddings puede llevar a una degradación del rendimiento. Aunque se han realizado algunas observaciones iniciales sobre los embeddings, la causa raíz de su falta de escalabilidad sigue siendo poco clara. Además, si la degradación del rendimiento ocurre en diferentes tipos de modelos y conjuntos de datos sigue siendo un área inexplorada. Respecto al efecto de las dimensiones de los embeddings en el rendimiento, realizamos experimentos a gran escala en 10 conjuntos de datos con distintos niveles de dispersión y escalas, utilizando 4 arquitecturas clásicas representativas. Sorprendentemente, observamos dos fenómenos novedosos: el de doble pico y el logarítmico. En el primero, a medida que aumenta la dimensión del embedding, el rendimiento primero mejora, luego disminuye, vuelve a aumentar y finalmente cae. En el segundo, se exhibe una curva logarítmica perfecta. Nuestras contribuciones son tres. Primero, descubrimos dos fenómenos novedosos al escalar modelos de filtrado colaborativo. Segundo, comprendemos las causas subyacentes del fenómeno de doble pico. Por último, analizamos teóricamente la robustez al ruido de los modelos de filtrado colaborativo, con resultados que coinciden con las observaciones empíricas.
English
Scaling recommendation models into large recommendation models has become one
of the most widely discussed topics. Recent efforts focus on components beyond
the scaling embedding dimension, as it is believed that scaling embedding may
lead to performance degradation. Although there have been some initial
observations on embedding, the root cause of their non-scalability remains
unclear. Moreover, whether performance degradation occurs across different
types of models and datasets is still an unexplored area. Regarding the effect
of embedding dimensions on performance, we conduct large-scale experiments
across 10 datasets with varying sparsity levels and scales, using 4
representative classical architectures. We surprisingly observe two novel
phenomenon: double-peak and logarithmic. For the former, as the embedding
dimension increases, performance first improves, then declines, rises again,
and eventually drops. For the latter, it exhibits a perfect logarithmic curve.
Our contributions are threefold. First, we discover two novel phenomena when
scaling collaborative filtering models. Second, we gain an understanding of the
underlying causes of the double-peak phenomenon. Lastly, we theoretically
analyze the noise robustness of collaborative filtering models, with results
matching empirical observations.