ChatPaper.aiChatPaper

RecGOAT: Graph Optimal Adaptive Transport für LLM-erweiterte multimodale Empfehlung mit dualer semantischer Ausrichtung

RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment

January 31, 2026
papers.authors: Yuecheng Li, Hengwei Ju, Zeyu Song, Wei Yang, Chi Lu, Peng Jiang, Kun Gai
cs.AI

papers.abstract

Multimodale Empfehlungssysteme integrieren typischerweise Nutzerverhalten mit multimodalen Daten von Artikeln, um genauere Nutzerpräferenzen zu erfassen. Gleichzeitig nutzt die multimodale Empfehlung mit dem Aufkommen großer Modelle (LMs) zunehmend deren Stärken im semantischen Verständnis und kontextuellen Reasoning. Allerdings sind LM-Repräsentationen inhärent für allgemeine semantische Aufgaben optimiert, während Empfehlungsmodelle stark auf spärliche eindeutige Identitätsmerkmale (IDs) von Nutzern/Artikeln angewiesen sind. Bisherige Arbeiten übersehen die grundlegende Repräsentationsdivergenz zwischen großen Modellen und Empfehlungssystemen, was zu inkompatiblen multimodalen Repräsentationen und suboptimaler Empfehlungsleistung führt. Um diese Lücke zu schließen, schlagen wir RecGOAT vor, ein neuartiges yet einfaches Dual-Semantic-Alignment-Framework für LLM-gestützte multimodale Empfehlungen, das theoretisch garantierte Alignment-Fähigkeit bietet. RecGOAT verwendet zunächst Graph-Attention-Netzwerke zur Anreicherung kollaborativer Semantik durch Modellierung von Artikel-Artikel-, Nutzer-Artikel- und Nutzer-Nutzer-Beziehungen unter Nutzung von LM-Repräsentationen und Interaktionshistorie. Darüber hinaus entwerfen wir ein Dual-Granularity-Progressive-Multimodality-ID-Alignment-Framework, das Instanzen- und Verteilungsebene-Semantik-Alignment via Cross-Modal Contrastive Learning (CMCL) bzw. Optimal Adaptive Transport (OAT) erreicht. Theoretisch zeigen wir, dass die vereinheitlichten Repräsentationen aus unserem Alignment-Framework überlegene semantische Konsistenz und Vollständigkeit aufweisen. Umfangreiche Experimente auf drei öffentlichen Benchmarks belegen, dass RecGOAT State-of-the-Art-Leistung erzielt und unsere theoretischen Erkenntnisse empirisch validiert. Zusätzlich bestätigt der Einsatz auf einer großskaligen Online-Werbeplattform die Effektivität und Skalierbarkeit des Modells in industriellen Empfehlungsszenarien. Code verfügbar unter https://github.com/6lyc/RecGOAT-LLM4Rec.
English
Multimodal recommendation systems typically integrates user behavior with multimodal data from items, thereby capturing more accurate user preferences. Concurrently, with the rise of large models (LMs), multimodal recommendation is increasingly leveraging their strengths in semantic understanding and contextual reasoning. However, LM representations are inherently optimized for general semantic tasks, while recommendation models rely heavily on sparse user/item unique identity (ID) features. Existing works overlook the fundamental representational divergence between large models and recommendation systems, resulting in incompatible multimodal representations and suboptimal recommendation performance. To bridge this gap, we propose RecGOAT, a novel yet simple dual semantic alignment framework for LLM-enhanced multimodal recommendation, which offers theoretically guaranteed alignment capability. RecGOAT first employs graph attention networks to enrich collaborative semantics by modeling item-item, user-item, and user-user relationships, leveraging user/item LM representations and interaction history. Furthermore, we design a dual-granularity progressive multimodality-ID alignment framework, which achieves instance-level and distribution-level semantic alignment via cross-modal contrastive learning (CMCL) and optimal adaptive transport (OAT), respectively. Theoretically, we demonstrate that the unified representations derived from our alignment framework exhibit superior semantic consistency and comprehensiveness. Extensive experiments on three public benchmarks show that our RecGOAT achieves state-of-the-art performance, empirically validating our theoretical insights. Additionally, the deployment on a large-scale online advertising platform confirms the model's effectiveness and scalability in industrial recommendation scenarios. Code available at https://github.com/6lyc/RecGOAT-LLM4Rec.
PDF11February 5, 2026