ChatPaper.aiChatPaper

CM^3: Kalibrierung multimodaler Empfehlungssysteme

CM^3: Calibrating Multimodal Recommendation

August 2, 2025
papers.authors: Xin Zhou, Yongjie Wang, Zhiqi Shen
cs.AI

papers.abstract

Ausrichtung und Gleichmäßigkeit sind grundlegende Prinzipien im Bereich des kontrastiven Lernens. In Empfehlungssystemen hat frühere Arbeit gezeigt, dass die Optimierung des Bayesian Personalized Ranking (BPR)-Verlusts zu den Zielen der Ausrichtung und Gleichmäßigkeit beiträgt. Insbesondere zielt die Ausrichtung darauf ab, die Repräsentationen interagierender Benutzer und Artikel näher zusammenzuführen, während die Gleichmäßigkeit eine gleichmäßige Verteilung der Benutzer- und Artikel-Embeddings auf einer Einheitshypersphäre vorschreibt. Diese Studie untersucht die Eigenschaften der Ausrichtung und Gleichmäßigkeit im Kontext multimodaler Empfehlungssysteme neu und zeigt eine Tendenz bestehender Modelle, die Gleichmäßigkeit auf Kosten der Ausrichtung zu priorisieren. Unsere Hypothese stellt die konventionelle Annahme einer gleichberechtigten Behandlung von Artikeln durch einen Gleichmäßigkeitsverlust in Frage und schlägt einen differenzierteren Ansatz vor, bei dem Artikel mit ähnlichen multimodalen Attributen zu nahegelegenen Repräsentationen innerhalb des hypersphärischen Manifolds konvergieren. Insbesondere nutzen wir die inhärente Ähnlichkeit zwischen den multimodalen Daten der Artikel, um ihre Gleichmäßigkeitsverteilung zu kalibrieren und dadurch eine stärkere abstoßende Kraft zwischen unähnlichen Entitäten im Embedding-Raum zu induzieren. Eine theoretische Analyse verdeutlicht die Beziehung zwischen diesem kalibrierten Gleichmäßigkeitsverlust und der konventionellen Gleichmäßigkeitsfunktion. Darüber hinaus führen wir zur Verbesserung der Fusion multimodaler Merkmale eine sphärische Bézier-Methode ein, die darauf abzielt, eine beliebige Anzahl von Modalitäten zu integrieren, während sichergestellt wird, dass die resultierenden fusionierten Merkmale auf demselben hypersphärischen Manifold beschränkt bleiben. Empirische Auswertungen, die auf fünf realen Datensätzen durchgeführt wurden, bestätigen die Überlegenheit unseres Ansatzes gegenüber konkurrierenden Baselines. Wir zeigen auch, dass die vorgeschlagenen Methoden durch die Integration von MLLM-extrahierten Merkmalen eine Steigerung der NDCG@20-Leistung von bis zu 5,4 % erreichen können. Der Quellcode ist verfügbar unter: https://github.com/enoche/CM3.
English
Alignment and uniformity are fundamental principles within the domain of contrastive learning. In recommender systems, prior work has established that optimizing the Bayesian Personalized Ranking (BPR) loss contributes to the objectives of alignment and uniformity. Specifically, alignment aims to draw together the representations of interacting users and items, while uniformity mandates a uniform distribution of user and item embeddings across a unit hypersphere. This study revisits the alignment and uniformity properties within the context of multimodal recommender systems, revealing a proclivity among extant models to prioritize uniformity to the detriment of alignment. Our hypothesis challenges the conventional assumption of equitable item treatment through a uniformity loss, proposing a more nuanced approach wherein items with similar multimodal attributes converge toward proximal representations within the hyperspheric manifold. Specifically, we leverage the inherent similarity between items' multimodal data to calibrate their uniformity distribution, thereby inducing a more pronounced repulsive force between dissimilar entities within the embedding space. A theoretical analysis elucidates the relationship between this calibrated uniformity loss and the conventional uniformity function. Moreover, to enhance the fusion of multimodal features, we introduce a Spherical B\'ezier method designed to integrate an arbitrary number of modalities while ensuring that the resulting fused features are constrained to the same hyperspherical manifold. Empirical evaluations conducted on five real-world datasets substantiate the superiority of our approach over competing baselines. We also shown that the proposed methods can achieve up to a 5.4% increase in NDCG@20 performance via the integration of MLLM-extracted features. Source code is available at: https://github.com/enoche/CM3.
PDF11August 8, 2025