CM^3: Calibrazione della Raccomandazione Multimodale
CM^3: Calibrating Multimodal Recommendation
August 2, 2025
Autori: Xin Zhou, Yongjie Wang, Zhiqi Shen
cs.AI
Abstract
Allineamento e uniformità sono principi fondamentali nel dominio dell'apprendimento contrastivo. Nei sistemi di raccomandazione, lavori precedenti hanno stabilito che l'ottimizzazione della funzione di perdita Bayesian Personalized Ranking (BPR) contribuisce agli obiettivi di allineamento e uniformità. Nello specifico, l'allineamento mira ad avvicinare le rappresentazioni di utenti e oggetti che interagiscono, mentre l'uniformità impone una distribuzione uniforme degli embedding di utenti e oggetti su una ipersfera unitaria. Questo studio riprende le proprietà di allineamento e uniformità nel contesto dei sistemi di raccomandazione multimodale, rivelando una tendenza nei modelli esistenti a privilegiare l'uniformità a discapito dell'allineamento. La nostra ipotesi mette in discussione l'assunzione convenzionale di un trattamento equo degli oggetti attraverso una funzione di perdita per l'uniformità, proponendo un approccio più sfumato in cui oggetti con attributi multimodali simili convergono verso rappresentazioni prossime all'interno del manifold ipersferico. Nello specifico, sfruttiamo la somiglianza intrinseca tra i dati multimodali degli oggetti per calibrare la loro distribuzione di uniformità, inducendo così una forza repulsiva più marcata tra entità dissimili nello spazio di embedding. Un'analisi teorica chiarisce la relazione tra questa funzione di perdita per l'uniformità calibrata e la funzione di uniformità convenzionale. Inoltre, per migliorare la fusione delle caratteristiche multimodali, introduciamo un metodo Spherical Bézier progettato per integrare un numero arbitrario di modalità, garantendo che le caratteristiche fuse risultanti siano vincolate allo stesso manifold ipersferico. Valutazioni empiriche condotte su cinque dataset del mondo reale confermano la superiorità del nostro approccio rispetto ai baseline concorrenti. Dimostriamo inoltre che i metodi proposti possono ottenere un incremento fino al 5,4% nelle prestazioni di NDCG@20 attraverso l'integrazione di caratteristiche estratte da MLLM. Il codice sorgente è disponibile all'indirizzo: https://github.com/enoche/CM3.
English
Alignment and uniformity are fundamental principles within the domain of
contrastive learning. In recommender systems, prior work has established that
optimizing the Bayesian Personalized Ranking (BPR) loss contributes to the
objectives of alignment and uniformity. Specifically, alignment aims to draw
together the representations of interacting users and items, while uniformity
mandates a uniform distribution of user and item embeddings across a unit
hypersphere. This study revisits the alignment and uniformity properties within
the context of multimodal recommender systems, revealing a proclivity among
extant models to prioritize uniformity to the detriment of alignment. Our
hypothesis challenges the conventional assumption of equitable item treatment
through a uniformity loss, proposing a more nuanced approach wherein items with
similar multimodal attributes converge toward proximal representations within
the hyperspheric manifold. Specifically, we leverage the inherent similarity
between items' multimodal data to calibrate their uniformity distribution,
thereby inducing a more pronounced repulsive force between dissimilar entities
within the embedding space. A theoretical analysis elucidates the relationship
between this calibrated uniformity loss and the conventional uniformity
function. Moreover, to enhance the fusion of multimodal features, we introduce
a Spherical B\'ezier method designed to integrate an arbitrary number of
modalities while ensuring that the resulting fused features are constrained to
the same hyperspherical manifold. Empirical evaluations conducted on five
real-world datasets substantiate the superiority of our approach over competing
baselines. We also shown that the proposed methods can achieve up to a 5.4%
increase in NDCG@20 performance via the integration of MLLM-extracted features.
Source code is available at: https://github.com/enoche/CM3.