ChatPaper.aiChatPaper

CM^3: Calibración de Recomendación Multimodal

CM^3: Calibrating Multimodal Recommendation

August 2, 2025
Autores: Xin Zhou, Yongjie Wang, Zhiqi Shen
cs.AI

Resumen

La alineación y la uniformidad son principios fundamentales dentro del dominio del aprendizaje contrastivo. En los sistemas de recomendación, trabajos previos han establecido que optimizar la función de pérdida del Ranking Personalizado Bayesiano (BPR, por sus siglas en inglés) contribuye a los objetivos de alineación y uniformidad. Específicamente, la alineación busca acercar las representaciones de usuarios y elementos que interactúan, mientras que la uniformidad exige una distribución uniforme de los embeddings de usuarios y elementos en una hiperesfera unitaria. Este estudio revisa las propiedades de alineación y uniformidad en el contexto de los sistemas de recomendación multimodal, revelando una tendencia en los modelos existentes a priorizar la uniformidad en detrimento de la alineación. Nuestra hipótesis desafía la suposición convencional de un tratamiento equitativo de los elementos mediante una función de pérdida de uniformidad, proponiendo un enfoque más matizado en el que los elementos con atributos multimodales similares convergen hacia representaciones próximas dentro del manifold hiperesférico. En concreto, aprovechamos la similitud inherente entre los datos multimodales de los elementos para calibrar su distribución de uniformidad, induciendo así una fuerza repulsiva más pronunciada entre entidades disímiles dentro del espacio de embeddings. Un análisis teórico esclarece la relación entre esta función de pérdida de uniformidad calibrada y la función de uniformidad convencional. Además, para mejorar la fusión de características multimodales, introducimos un método de B\'ezier esférico diseñado para integrar un número arbitrario de modalidades, asegurando que las características fusionadas resultantes estén restringidas al mismo manifold hiperesférico. Las evaluaciones empíricas realizadas en cinco conjuntos de datos del mundo real respaldan la superioridad de nuestro enfoque frente a las líneas base competidoras. También demostramos que los métodos propuestos pueden lograr un aumento de hasta un 5.4% en el rendimiento de NDCG@20 mediante la integración de características extraídas por MLLM. El código fuente está disponible en: https://github.com/enoche/CM3.
English
Alignment and uniformity are fundamental principles within the domain of contrastive learning. In recommender systems, prior work has established that optimizing the Bayesian Personalized Ranking (BPR) loss contributes to the objectives of alignment and uniformity. Specifically, alignment aims to draw together the representations of interacting users and items, while uniformity mandates a uniform distribution of user and item embeddings across a unit hypersphere. This study revisits the alignment and uniformity properties within the context of multimodal recommender systems, revealing a proclivity among extant models to prioritize uniformity to the detriment of alignment. Our hypothesis challenges the conventional assumption of equitable item treatment through a uniformity loss, proposing a more nuanced approach wherein items with similar multimodal attributes converge toward proximal representations within the hyperspheric manifold. Specifically, we leverage the inherent similarity between items' multimodal data to calibrate their uniformity distribution, thereby inducing a more pronounced repulsive force between dissimilar entities within the embedding space. A theoretical analysis elucidates the relationship between this calibrated uniformity loss and the conventional uniformity function. Moreover, to enhance the fusion of multimodal features, we introduce a Spherical B\'ezier method designed to integrate an arbitrary number of modalities while ensuring that the resulting fused features are constrained to the same hyperspherical manifold. Empirical evaluations conducted on five real-world datasets substantiate the superiority of our approach over competing baselines. We also shown that the proposed methods can achieve up to a 5.4% increase in NDCG@20 performance via the integration of MLLM-extracted features. Source code is available at: https://github.com/enoche/CM3.
PDF11August 8, 2025