RecGOAT: Trasporto Ottimale Adattativo su Grafi per Raccomandazioni Multimodali Potenziate da LLM con Allineamento Semantico Duale

Abstract

I sistemi di raccomandazione multimodali integrano tipicamente il comportamento degli utenti con i dati multimodali degli elementi, catturando così preferenze utente più accurate. Contemporaneamente, con l'ascesa dei grandi modelli (LM), la raccomandazione multimodale sta sfruttando sempre più i loro punti di forza nella comprensione semantica e nel ragionamento contestuale. Tuttavia, le rappresentazioni dei LM sono intrinsecamente ottimizzate per compiti semantici generali, mentre i modelli di raccomandazione fanno molto affidamento sulle caratteristiche identificate (ID) uniche e sparse di utenti/elementi. I lavori esistenti trascurano la divergenza rappresentazionale fondamentale tra i grandi modelli e i sistemi di raccomandazione, risultando in rappresentazioni multimodali incompatibili e prestazioni di raccomandazione subottimali. Per colmare questa lacuna, proponiamo RecGOAT, un nuovo ma semplice framework di allineamento semantico duale per la raccomandazione multimodale potenziata da LLM, che offre una capacità di allineamento teoricamente garantita. RecGOAT impiega prima le reti di attenzione su grafo per arricchire la semantica collaborativa modellando le relazioni elemento-elemento, utente-elemento e utente-utente, sfruttando le rappresentazioni LM di utenti/elementi e la cronologia delle interazioni. Inoltre, progettiamo un framework di allineamento progressivo multimodalità-ID a granularità duale, che raggiunge l'allineamento semantico a livello di istanza e a livello di distribuzione rispettivamente tramite l'apprendimento contrastivo cross-modale (CMCL) e il trasporto ottimale adattivo (OAT). Teoricamente, dimostriamo che le rappresentazioni unificate derivate dal nostro framework di allineamento mostrano una consistenza e completezza semantica superiori. Esperimenti estesi su tre benchmark pubblici mostrano che il nostro RecGOAT raggiunge prestazioni all'avanguardia, convalidando empiricamente le nostre intuizioni teoriche. Inoltre, l'implementazione su una piattaforma di advertising online su larga scala conferma l'efficacia e la scalabilità del modello negli scenari di raccomandazione industriale. Codice disponibile all'indirizzo https://github.com/6lyc/RecGOAT-LLM4Rec.

English

Multimodal recommendation systems typically integrates user behavior with multimodal data from items, thereby capturing more accurate user preferences. Concurrently, with the rise of large models (LMs), multimodal recommendation is increasingly leveraging their strengths in semantic understanding and contextual reasoning. However, LM representations are inherently optimized for general semantic tasks, while recommendation models rely heavily on sparse user/item unique identity (ID) features. Existing works overlook the fundamental representational divergence between large models and recommendation systems, resulting in incompatible multimodal representations and suboptimal recommendation performance. To bridge this gap, we propose RecGOAT, a novel yet simple dual semantic alignment framework for LLM-enhanced multimodal recommendation, which offers theoretically guaranteed alignment capability. RecGOAT first employs graph attention networks to enrich collaborative semantics by modeling item-item, user-item, and user-user relationships, leveraging user/item LM representations and interaction history. Furthermore, we design a dual-granularity progressive multimodality-ID alignment framework, which achieves instance-level and distribution-level semantic alignment via cross-modal contrastive learning (CMCL) and optimal adaptive transport (OAT), respectively. Theoretically, we demonstrate that the unified representations derived from our alignment framework exhibit superior semantic consistency and comprehensiveness. Extensive experiments on three public benchmarks show that our RecGOAT achieves state-of-the-art performance, empirically validating our theoretical insights. Additionally, the deployment on a large-scale online advertising platform confirms the model's effectiveness and scalability in industrial recommendation scenarios. Code available at https://github.com/6lyc/RecGOAT-LLM4Rec.

RecGOAT: Trasporto Ottimale Adattativo su Grafi per Raccomandazioni Multimodali Potenziate da LLM con Allineamento Semantico Duale

RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment

Abstract

Support