ChatPaper.aiChatPaper

CM^3: Calibração de Recomendação Multimodal

CM^3: Calibrating Multimodal Recommendation

August 2, 2025
Autores: Xin Zhou, Yongjie Wang, Zhiqi Shen
cs.AI

Resumo

Alinhamento e uniformidade são princípios fundamentais no domínio da aprendizagem contrastiva. Em sistemas de recomendação, trabalhos anteriores estabeleceram que a otimização da função de perda Bayesian Personalized Ranking (BPR) contribui para os objetivos de alinhamento e uniformidade. Especificamente, o alinhamento visa aproximar as representações de usuários e itens que interagem, enquanto a uniformidade exige uma distribuição uniforme das incorporações (embeddings) de usuários e itens em uma hiperesfera unitária. Este estudo revisita as propriedades de alinhamento e uniformidade no contexto de sistemas de recomendação multimodal, revelando uma tendência entre os modelos existentes de priorizar a uniformidade em detrimento do alinhamento. Nossa hipótese desafia a suposição convencional de tratamento equitativo de itens por meio de uma função de perda de uniformidade, propondo uma abordagem mais refinada na qual itens com atributos multimodais semelhantes convergem para representações próximas dentro da variedade hiperesférica. Especificamente, aproveitamos a similaridade inerente entre os dados multimodais dos itens para calibrar sua distribuição de uniformidade, induzindo assim uma força repulsiva mais pronunciada entre entidades dissimilares no espaço de incorporação. Uma análise teórica esclarece a relação entre essa função de perda de uniformidade calibrada e a função de uniformidade convencional. Além disso, para aprimorar a fusão de características multimodais, introduzimos um método Spherical Bézier projetado para integrar um número arbitrário de modalidades, garantindo que as características fundidas resultantes estejam restritas à mesma variedade hiperesférica. Avaliações empíricas realizadas em cinco conjuntos de dados do mundo real comprovam a superioridade de nossa abordagem em relação às linhas de base concorrentes. Também demonstramos que os métodos propostos podem alcançar um aumento de até 5,4% no desempenho NDCG@20 por meio da integração de características extraídas por MLLM. O código-fonte está disponível em: https://github.com/enoche/CM3.
English
Alignment and uniformity are fundamental principles within the domain of contrastive learning. In recommender systems, prior work has established that optimizing the Bayesian Personalized Ranking (BPR) loss contributes to the objectives of alignment and uniformity. Specifically, alignment aims to draw together the representations of interacting users and items, while uniformity mandates a uniform distribution of user and item embeddings across a unit hypersphere. This study revisits the alignment and uniformity properties within the context of multimodal recommender systems, revealing a proclivity among extant models to prioritize uniformity to the detriment of alignment. Our hypothesis challenges the conventional assumption of equitable item treatment through a uniformity loss, proposing a more nuanced approach wherein items with similar multimodal attributes converge toward proximal representations within the hyperspheric manifold. Specifically, we leverage the inherent similarity between items' multimodal data to calibrate their uniformity distribution, thereby inducing a more pronounced repulsive force between dissimilar entities within the embedding space. A theoretical analysis elucidates the relationship between this calibrated uniformity loss and the conventional uniformity function. Moreover, to enhance the fusion of multimodal features, we introduce a Spherical B\'ezier method designed to integrate an arbitrary number of modalities while ensuring that the resulting fused features are constrained to the same hyperspherical manifold. Empirical evaluations conducted on five real-world datasets substantiate the superiority of our approach over competing baselines. We also shown that the proposed methods can achieve up to a 5.4% increase in NDCG@20 performance via the integration of MLLM-extracted features. Source code is available at: https://github.com/enoche/CM3.
PDF11August 8, 2025