RecGOAT: 大規模言語モデル拡張マルチモーダル推薦のためのグラフ最適適応トランスポートとデュアルセマンティックアライメント
RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment
January 31, 2026
著者: Yuecheng Li, Hengwei Ju, Zeyu Song, Wei Yang, Chi Lu, Peng Jiang, Kun Gai
cs.AI
要旨
マルチモーダル推薦システムは通常、ユーザーの行動とアイテムのマルチモーダルデータを統合することで、より正確なユーザーの嗜好を捉える。一方、大規模モデル(LM)の台頭に伴い、マルチモーダル推薦ではその意味理解と文脈推論の強みを活用する機運が高まっている。しかし、LMの表現は本質的に一般的な意味タスク向けに最適化されているのに対し、推薦モデルは疎なユーザー/アイテムの固有識別子(ID)特徴に大きく依存する。既存研究は、大規模モデルと推薦システムの間の根本的な表現の相違を見落としており、その結果、互換性のないマルチモーダル表現と最適とは言えない推薦性能を招いている。この隔たりを埋めるため、我々は理論的に保証されたアライメント能力を提供する、LLM拡張マルチモーダル推薦のための新規かつ簡素なデュアルセマンティックアライメントフレームワーク「RecGOAT」を提案する。RecGOATはまず、グラフ注意ネットワークを用いて、ユーザー/アイテムのLM表現とインタラクション履歴を活用し、アイテム間、ユーザー-アイテム間、ユーザー間の関係をモデル化することで協調セマンティクスを豊かにする。さらに、インスタンスレベルと分布レベルのセマンティックアライメントをそれぞれクロスモーダル対比学習(CMCL)と最適適応トランスポート(OAT)によって達成する、デュアル粒度プログレッシブマルチモーダル-IDアライメントフレームワークを設計する。理論的には、我々のアライメントフレームワークから導出される統合表現が、優れたセマンティック一貫性と包括性を示すことを証明する。3つの公開ベンチマークでの大規模な実験により、我々のRecGOATが最先端の性能を達成し、理論的洞察を実証的に検証した。加えて、大規模オンライン広告プラットフォームへのデプロイメントは、産業推薦シナリオにおけるモデルの有効性と拡張性を確認している。コードはhttps://github.com/6lyc/RecGOAT-LLM4Recで公開されている。
English
Multimodal recommendation systems typically integrates user behavior with multimodal data from items, thereby capturing more accurate user preferences. Concurrently, with the rise of large models (LMs), multimodal recommendation is increasingly leveraging their strengths in semantic understanding and contextual reasoning. However, LM representations are inherently optimized for general semantic tasks, while recommendation models rely heavily on sparse user/item unique identity (ID) features. Existing works overlook the fundamental representational divergence between large models and recommendation systems, resulting in incompatible multimodal representations and suboptimal recommendation performance. To bridge this gap, we propose RecGOAT, a novel yet simple dual semantic alignment framework for LLM-enhanced multimodal recommendation, which offers theoretically guaranteed alignment capability. RecGOAT first employs graph attention networks to enrich collaborative semantics by modeling item-item, user-item, and user-user relationships, leveraging user/item LM representations and interaction history. Furthermore, we design a dual-granularity progressive multimodality-ID alignment framework, which achieves instance-level and distribution-level semantic alignment via cross-modal contrastive learning (CMCL) and optimal adaptive transport (OAT), respectively. Theoretically, we demonstrate that the unified representations derived from our alignment framework exhibit superior semantic consistency and comprehensiveness. Extensive experiments on three public benchmarks show that our RecGOAT achieves state-of-the-art performance, empirically validating our theoretical insights. Additionally, the deployment on a large-scale online advertising platform confirms the model's effectiveness and scalability in industrial recommendation scenarios. Code available at https://github.com/6lyc/RecGOAT-LLM4Rec.