ChatPaper.aiChatPaper

RecGOAT: 이중 의미 정렬을 통한 LLM 기반 멀티모달 추천을 위한 그래프 최적 적응형 전송

RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment

January 31, 2026
저자: Yuecheng Li, Hengwei Ju, Zeyu Song, Wei Yang, Chi Lu, Peng Jiang, Kun Gai
cs.AI

초록

멀티모달 추천 시스템은 일반적으로 사용자 행동과 아이템의 멀티모달 데이터를 통합하여 보다 정확한 사용자 선호도를 파악합니다. 동시에 대규모 모델(LM)의 부상에 따라 멀티모달 추천은 의미 이해와 맥락 추론에서의 강점을 점차 활용하고 있습니다. 그러나 LM 표현은 본질적으로 일반적인 의미 작업에 최적화되어 있는 반면, 추천 모델은 희소한 사용자/아이템 고유 식별자(ID) 특징에 크게 의존합니다. 기존 연구들은 대규모 모델과 추천 시스템 간의 근본적인 표현 차이를 간과하여, 상호 호환되지 않는 멀티모달 표현과 차선의 추천 성능을 초래했습니다. 이러한 간극을 해소하기 위해 우리는 LLM 강화 멀티모달 추천을 위한 이론적으로 보장된 정렬 능력을 제공하는 새롭고 간단한 이중 의미 정렬 프레임워크인 RecGOAT를 제안합니다. RecGOAT는 먼저 그래프 어텐션 네트워크를 사용하여 사용자/아이템 LM 표현과 상호작용 이력을 활용해 아이템-아이템, 사용자-아이템, 사용자-사용자 관계를 모델링함으로써 협업 의미를 풍부하게 합니다. 더 나아가 우리는 크로스모달 대조 학습(CMCL)과 최적 적응 전송(OAT)을 통해 각각 인스턴스 수준과 분포 수준의 의미 정렬을 달성하는 이중 세분화 점진적 멀티모달리티-ID 정렬 프레임워크를 설계했습니다. 이론적으로, 우리의 정렬 프레임워크에서 도출된 통합 표현이 우수한 의미 일관성과 포괄성을 보인다는 것을 입증합니다. 3개의 공개 벤치마크에 대한 광범위한 실험을 통해 우리의 RecGOAT가 최첨단 성능을 달성하여 우리의 이론적 통찰력을 실증적으로 검증했음을 보여줍니다. 또한 대규모 온라인 광고 플랫폼에의 배포는 산업적 추천 시나리오에서 모델의 효과성과 확장성을 확인시켜 줍니다. 코드는 https://github.com/6lyc/RecGOAT-LLM4Rec에서 이용 가능합니다.
English
Multimodal recommendation systems typically integrates user behavior with multimodal data from items, thereby capturing more accurate user preferences. Concurrently, with the rise of large models (LMs), multimodal recommendation is increasingly leveraging their strengths in semantic understanding and contextual reasoning. However, LM representations are inherently optimized for general semantic tasks, while recommendation models rely heavily on sparse user/item unique identity (ID) features. Existing works overlook the fundamental representational divergence between large models and recommendation systems, resulting in incompatible multimodal representations and suboptimal recommendation performance. To bridge this gap, we propose RecGOAT, a novel yet simple dual semantic alignment framework for LLM-enhanced multimodal recommendation, which offers theoretically guaranteed alignment capability. RecGOAT first employs graph attention networks to enrich collaborative semantics by modeling item-item, user-item, and user-user relationships, leveraging user/item LM representations and interaction history. Furthermore, we design a dual-granularity progressive multimodality-ID alignment framework, which achieves instance-level and distribution-level semantic alignment via cross-modal contrastive learning (CMCL) and optimal adaptive transport (OAT), respectively. Theoretically, we demonstrate that the unified representations derived from our alignment framework exhibit superior semantic consistency and comprehensiveness. Extensive experiments on three public benchmarks show that our RecGOAT achieves state-of-the-art performance, empirically validating our theoretical insights. Additionally, the deployment on a large-scale online advertising platform confirms the model's effectiveness and scalability in industrial recommendation scenarios. Code available at https://github.com/6lyc/RecGOAT-LLM4Rec.
PDF11February 5, 2026