ChatPaper.aiChatPaper

RecGOAT : Transport Optimal Adaptatif par Graphes pour la Recommandation Multimodale Améliorée par LLM avec Alignement Sémantique Dual

RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment

January 31, 2026
papers.authors: Yuecheng Li, Hengwei Ju, Zeyu Song, Wei Yang, Chi Lu, Peng Jiang, Kun Gai
cs.AI

papers.abstract

Les systèmes de recommandation multimodaux intègrent généralement le comportement des utilisateurs avec les données multimodales des articles, capturant ainsi des préférences utilisateur plus précises. Parallèlement, avec l'émergence des grands modèles (LM), la recommandation multimodale exploite de plus en plus leurs atouts en compréhension sémantique et raisonnement contextuel. Cependant, les représentations des LM sont intrinsèquement optimisées pour des tâches sémantiques générales, tandis que les modèles de recommandation reposent largement sur les caractéristiques d'identifiant (ID) uniques et éparses des utilisateurs/éléments. Les travaux existants négligent la divergence représentationnelle fondamentale entre les grands modèles et les systèmes de recommandation, entraînant des représentations multimodales incompatibles et des performances de recommandation sous-optimales. Pour combler cet écart, nous proposons RecGOAT, un cadre novateur mais simple d'alignement sémantique dual pour la recommandation multimodale améliorée par LLM, offrant une capacité d'alignement théoriquement garantie. RecGOAT utilise d'abord des réseaux à attention de graphe pour enrichir la sémantique collaborative en modélisant les relations article-article, utilisateur-article et utilisateur-utilisateur, en exploitant les représentations LM des utilisateurs/éléments et l'historique des interactions. De plus, nous concevons un cadre d'alignement multimodal-ID progressif à double granularité, qui réalise un alignement sémantique au niveau instance et au niveau distribution via un apprentissage contrastif cross-modal (CMCL) et un transport optimal adaptatif (OAT), respectivement. Théoriquement, nous démontrons que les représentations unifiées issues de notre cadre d'alignement présentent une cohérence et une exhaustivité sémantiques supérieures. Des expériences approfondies sur trois benchmarks publics montrent que notre RecGOAT atteint des performances de pointe, validant empiriquement nos intuitions théoriques. De plus, le déploiement sur une plateforme publicitaire en ligne à grande échelle confirme l'efficacité et l'évolutivité du modèle dans les scénarios de recommandation industrielle. Code disponible à l'adresse https://github.com/6lyc/RecGOAT-LLM4Rec.
English
Multimodal recommendation systems typically integrates user behavior with multimodal data from items, thereby capturing more accurate user preferences. Concurrently, with the rise of large models (LMs), multimodal recommendation is increasingly leveraging their strengths in semantic understanding and contextual reasoning. However, LM representations are inherently optimized for general semantic tasks, while recommendation models rely heavily on sparse user/item unique identity (ID) features. Existing works overlook the fundamental representational divergence between large models and recommendation systems, resulting in incompatible multimodal representations and suboptimal recommendation performance. To bridge this gap, we propose RecGOAT, a novel yet simple dual semantic alignment framework for LLM-enhanced multimodal recommendation, which offers theoretically guaranteed alignment capability. RecGOAT first employs graph attention networks to enrich collaborative semantics by modeling item-item, user-item, and user-user relationships, leveraging user/item LM representations and interaction history. Furthermore, we design a dual-granularity progressive multimodality-ID alignment framework, which achieves instance-level and distribution-level semantic alignment via cross-modal contrastive learning (CMCL) and optimal adaptive transport (OAT), respectively. Theoretically, we demonstrate that the unified representations derived from our alignment framework exhibit superior semantic consistency and comprehensiveness. Extensive experiments on three public benchmarks show that our RecGOAT achieves state-of-the-art performance, empirically validating our theoretical insights. Additionally, the deployment on a large-scale online advertising platform confirms the model's effectiveness and scalability in industrial recommendation scenarios. Code available at https://github.com/6lyc/RecGOAT-LLM4Rec.
PDF11February 5, 2026