CM^3: Calibrazione della Raccomandazione Multimodale

Abstract

Allineamento e uniformità sono principi fondamentali nel dominio dell'apprendimento contrastivo. Nei sistemi di raccomandazione, lavori precedenti hanno stabilito che l'ottimizzazione della funzione di perdita Bayesian Personalized Ranking (BPR) contribuisce agli obiettivi di allineamento e uniformità. Nello specifico, l'allineamento mira ad avvicinare le rappresentazioni di utenti e oggetti che interagiscono, mentre l'uniformità impone una distribuzione uniforme degli embedding di utenti e oggetti su una ipersfera unitaria. Questo studio riprende le proprietà di allineamento e uniformità nel contesto dei sistemi di raccomandazione multimodale, rivelando una tendenza nei modelli esistenti a privilegiare l'uniformità a discapito dell'allineamento. La nostra ipotesi mette in discussione l'assunzione convenzionale di un trattamento equo degli oggetti attraverso una funzione di perdita per l'uniformità, proponendo un approccio più sfumato in cui oggetti con attributi multimodali simili convergono verso rappresentazioni prossime all'interno del manifold ipersferico. Nello specifico, sfruttiamo la somiglianza intrinseca tra i dati multimodali degli oggetti per calibrare la loro distribuzione di uniformità, inducendo così una forza repulsiva più marcata tra entità dissimili nello spazio di embedding. Un'analisi teorica chiarisce la relazione tra questa funzione di perdita per l'uniformità calibrata e la funzione di uniformità convenzionale. Inoltre, per migliorare la fusione delle caratteristiche multimodali, introduciamo un metodo Spherical Bézier progettato per integrare un numero arbitrario di modalità, garantendo che le caratteristiche fuse risultanti siano vincolate allo stesso manifold ipersferico. Valutazioni empiriche condotte su cinque dataset del mondo reale confermano la superiorità del nostro approccio rispetto ai baseline concorrenti. Dimostriamo inoltre che i metodi proposti possono ottenere un incremento fino al 5,4% nelle prestazioni di NDCG@20 attraverso l'integrazione di caratteristiche estratte da MLLM. Il codice sorgente è disponibile all'indirizzo: https://github.com/enoche/CM3.

English

Alignment and uniformity are fundamental principles within the domain of contrastive learning. In recommender systems, prior work has established that optimizing the Bayesian Personalized Ranking (BPR) loss contributes to the objectives of alignment and uniformity. Specifically, alignment aims to draw together the representations of interacting users and items, while uniformity mandates a uniform distribution of user and item embeddings across a unit hypersphere. This study revisits the alignment and uniformity properties within the context of multimodal recommender systems, revealing a proclivity among extant models to prioritize uniformity to the detriment of alignment. Our hypothesis challenges the conventional assumption of equitable item treatment through a uniformity loss, proposing a more nuanced approach wherein items with similar multimodal attributes converge toward proximal representations within the hyperspheric manifold. Specifically, we leverage the inherent similarity between items' multimodal data to calibrate their uniformity distribution, thereby inducing a more pronounced repulsive force between dissimilar entities within the embedding space. A theoretical analysis elucidates the relationship between this calibrated uniformity loss and the conventional uniformity function. Moreover, to enhance the fusion of multimodal features, we introduce a Spherical B\'ezier method designed to integrate an arbitrary number of modalities while ensuring that the resulting fused features are constrained to the same hyperspherical manifold. Empirical evaluations conducted on five real-world datasets substantiate the superiority of our approach over competing baselines. We also shown that the proposed methods can achieve up to a 5.4% increase in NDCG@20 performance via the integration of MLLM-extracted features. Source code is available at: https://github.com/enoche/CM3.

CM^3: Calibrazione della Raccomandazione Multimodale

CM^3: Calibrating Multimodal Recommendation

Abstract

Support