ChatPaper.aiChatPaper

CM^3: Kalibratie van Multimodale Aanbevelingen

CM^3: Calibrating Multimodal Recommendation

August 2, 2025
Auteurs: Xin Zhou, Yongjie Wang, Zhiqi Shen
cs.AI

Samenvatting

Alignment en uniformity zijn fundamentele principes binnen het domein van contrastief leren. In aanbevelingssystemen heeft eerder onderzoek aangetoond dat het optimaliseren van de Bayesian Personalized Ranking (BPR) loss bijdraagt aan de doelstellingen van alignment en uniformity. Specifiek streeft alignment ernaar de representaties van interagerende gebruikers en items dichter bij elkaar te brengen, terwijl uniformity vereist dat de embeddings van gebruikers en items uniform verdeeld zijn over een eenheidshypersfeer. Deze studie herziet de eigenschappen van alignment en uniformity in de context van multimodale aanbevelingssystemen en onthult een neiging bij bestaande modellen om uniformity te prioriteren ten koste van alignment. Onze hypothese daagt de conventionele aanname van gelijke behandeling van items via een uniformity loss uit en stelt een meer genuanceerde benadering voor waarbij items met vergelijkbare multimodale attributen convergeren naar nabijgelegen representaties binnen de hypersferische variëteit. Specifiek benutten we de inherente gelijkenis tussen de multimodale data van items om hun uniformity distributie te kalibreren, waardoor een meer uitgesproken afstotende kracht wordt geïnduceerd tussen ongelijke entiteiten binnen de embeddingruimte. Een theoretische analyse verduidelijkt de relatie tussen deze gekalibreerde uniformity loss en de conventionele uniformity functie. Bovendien introduceren we, om de fusie van multimodale kenmerken te verbeteren, een Spherical Bézier-methode die ontworpen is om een willekeurig aantal modaliteiten te integreren, terwijl ervoor wordt gezorgd dat de resulterende gefuseerde kenmerken beperkt blijven tot dezelfde hypersferische variëteit. Empirische evaluaties uitgevoerd op vijf real-world datasets bevestigen de superioriteit van onze aanpak ten opzichte van concurrerende baselines. We tonen ook aan dat de voorgestelde methoden een prestatieverbetering van tot wel 5,4% in NDCG@20 kunnen bereiken door de integratie van MLLM-geëxtraheerde kenmerken. Broncode is beschikbaar op: https://github.com/enoche/CM3.
English
Alignment and uniformity are fundamental principles within the domain of contrastive learning. In recommender systems, prior work has established that optimizing the Bayesian Personalized Ranking (BPR) loss contributes to the objectives of alignment and uniformity. Specifically, alignment aims to draw together the representations of interacting users and items, while uniformity mandates a uniform distribution of user and item embeddings across a unit hypersphere. This study revisits the alignment and uniformity properties within the context of multimodal recommender systems, revealing a proclivity among extant models to prioritize uniformity to the detriment of alignment. Our hypothesis challenges the conventional assumption of equitable item treatment through a uniformity loss, proposing a more nuanced approach wherein items with similar multimodal attributes converge toward proximal representations within the hyperspheric manifold. Specifically, we leverage the inherent similarity between items' multimodal data to calibrate their uniformity distribution, thereby inducing a more pronounced repulsive force between dissimilar entities within the embedding space. A theoretical analysis elucidates the relationship between this calibrated uniformity loss and the conventional uniformity function. Moreover, to enhance the fusion of multimodal features, we introduce a Spherical B\'ezier method designed to integrate an arbitrary number of modalities while ensuring that the resulting fused features are constrained to the same hyperspherical manifold. Empirical evaluations conducted on five real-world datasets substantiate the superiority of our approach over competing baselines. We also shown that the proposed methods can achieve up to a 5.4% increase in NDCG@20 performance via the integration of MLLM-extracted features. Source code is available at: https://github.com/enoche/CM3.
PDF11August 8, 2025