ChatPaper.aiChatPaper

RecGOAT: Grafisch Optimaal Adaptief Transport voor LLM-verbeterde Multimodale Aanbeveling met Duale Semantische Afstemming

RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment

January 31, 2026
Auteurs: Yuecheng Li, Hengwei Ju, Zeyu Song, Wei Yang, Chi Lu, Peng Jiang, Kun Gai
cs.AI

Samenvatting

Multimodale aanbevelingssystemen integreren doorgaans gebruikersgedrag met multimodale gegevens van items, waardoor nauwkeurigere gebruikersvoorkeuren worden vastgesteld. Tegelijkertijd, met de opkomst van grote modellen (LM's), benut multimodale aanbeveling steeds vaker hun sterke punten in semantisch begrip en contextueel redeneren. Echter, LM-representaties zijn inherent geoptimaliseerd voor algemene semantische taken, terwijl aanbevelingsmodellen sterk leunen op sparse unieke identiteit (ID)-kenmerken van gebruikers/items. Bestaande werken negeren de fundamentele representatiekloof tussen grote modellen en aanbevelingssystemen, wat leidt tot incompatibele multimodale representaties en suboptimale aanbevelingsprestaties. Om deze kloof te overbruggen, stellen we RecGOAT voor, een nieuw maar eenvoudig dual semantisch aligneringskader voor LLM-verbeterde multimodale aanbeveling, dat theoretisch gegarandeerde aligneringscapaciteit biedt. RecGOAT gebruikt eerst graph attention-netwerken om collaboratieve semantiek te verrijken door item-item-, gebruiker-item- en gebruiker-gebruikerrelaties te modelleren, waarbij gebruik wordt gemaakt van LM-representaties en interactiegeschiedenis van gebruikers/items. Verder ontwerpen we een dual-granulariteit progressief multimodaliteit-ID-aligneringskader, dat instantieniveau- en distributieniveau-semantische alignering bereikt via respectievelijk cross-modale contrastieve learning (CMCL) en optimaal adaptief transport (OAT). Theoretisch tonen we aan dat de verenigde representaties afkomstig van ons aligneringskader superieure semantische consistentie en volledigheid vertonen. Uitgebreide experimenten op drie publieke benchmarks tonen aan dat onze RecGOAT state-of-the-art prestaties bereikt, wat onze theoretische inzichten empirisch valideert. Bovendien bevestigt de implementatie op een grootschalig online advertentieplatform de effectiviteit en schaalbaarheid van het model in industriële aanbevelingsscenario's. Code beschikbaar op https://github.com/6lyc/RecGOAT-LLM4Rec.
English
Multimodal recommendation systems typically integrates user behavior with multimodal data from items, thereby capturing more accurate user preferences. Concurrently, with the rise of large models (LMs), multimodal recommendation is increasingly leveraging their strengths in semantic understanding and contextual reasoning. However, LM representations are inherently optimized for general semantic tasks, while recommendation models rely heavily on sparse user/item unique identity (ID) features. Existing works overlook the fundamental representational divergence between large models and recommendation systems, resulting in incompatible multimodal representations and suboptimal recommendation performance. To bridge this gap, we propose RecGOAT, a novel yet simple dual semantic alignment framework for LLM-enhanced multimodal recommendation, which offers theoretically guaranteed alignment capability. RecGOAT first employs graph attention networks to enrich collaborative semantics by modeling item-item, user-item, and user-user relationships, leveraging user/item LM representations and interaction history. Furthermore, we design a dual-granularity progressive multimodality-ID alignment framework, which achieves instance-level and distribution-level semantic alignment via cross-modal contrastive learning (CMCL) and optimal adaptive transport (OAT), respectively. Theoretically, we demonstrate that the unified representations derived from our alignment framework exhibit superior semantic consistency and comprehensiveness. Extensive experiments on three public benchmarks show that our RecGOAT achieves state-of-the-art performance, empirically validating our theoretical insights. Additionally, the deployment on a large-scale online advertising platform confirms the model's effectiveness and scalability in industrial recommendation scenarios. Code available at https://github.com/6lyc/RecGOAT-LLM4Rec.
PDF13February 8, 2026