RecGOAT: Transporte Ótimo Adaptativo em Grafos para Recomendação Multimodal Aprimorada por LLM com Alinhamento Semântico Dual

Resumo

Os sistemas de recomendação multimodal normalmente integram o comportamento do utilizador com dados multimodais dos itens, capturando assim preferências do utilizador mais precisas. Simultaneamente, com a ascensão dos grandes modelos (LMs), a recomendação multimodal está a aproveitar cada vez mais os seus pontos fortes na compreensão semântica e no raciocínio contextual. No entanto, as representações dos LMs são inerentemente otimizadas para tarefas semânticas gerais, enquanto os modelos de recomendação dependem fortemente de características esparsas de identidade única (ID) do utilizador/item. Os trabalhos existentes ignoram a divergência representacional fundamental entre os grandes modelos e os sistemas de recomendação, resultando em representações multimodais incompatíveis e desempenho de recomendação subótimo. Para colmatar esta lacuna, propomos o RecGOAT, um novo e simples quadro de alinhamento semântico dual para recomendação multimodal potenciada por LLM, que oferece capacidade de alinhamento com garantia teórica. O RecGOAT emprega primeiro redes de atenção em grafos para enriquecer a semântica colaborativa, modelando relações item-item, utilizador-item e utilizador-utilizador, aproveitando as representações LM do utilizador/item e o histórico de interações. Além disso, concebemos um quadro de alinhamento multimodalidade-ID progressivo de dupla granularidade, que alcança o alinhamento semântico a nível de instância e a nível de distribuição através da aprendizagem contrastiva cross-modal (CMCL) e do transporte adaptativo ótimo (OAT), respetivamente. Teoricamente, demonstramos que as representações unificadas derivadas do nosso quadro de alinhamento exibem consistência e abrangência semântica superiores. Experiências extensas em três benchmarks públicos mostram que o nosso RecGOAT alcança um desempenho state-of-the-art, validando empiricamente as nossas perspetivas teóricas. Adicionalmente, a implementação numa plataforma de publicidade online de grande escala confirma a eficácia e escalabilidade do modelo em cenários de recomendação industrial. Código disponível em https://github.com/6lyc/RecGOAT-LLM4Rec.

English

Multimodal recommendation systems typically integrates user behavior with multimodal data from items, thereby capturing more accurate user preferences. Concurrently, with the rise of large models (LMs), multimodal recommendation is increasingly leveraging their strengths in semantic understanding and contextual reasoning. However, LM representations are inherently optimized for general semantic tasks, while recommendation models rely heavily on sparse user/item unique identity (ID) features. Existing works overlook the fundamental representational divergence between large models and recommendation systems, resulting in incompatible multimodal representations and suboptimal recommendation performance. To bridge this gap, we propose RecGOAT, a novel yet simple dual semantic alignment framework for LLM-enhanced multimodal recommendation, which offers theoretically guaranteed alignment capability. RecGOAT first employs graph attention networks to enrich collaborative semantics by modeling item-item, user-item, and user-user relationships, leveraging user/item LM representations and interaction history. Furthermore, we design a dual-granularity progressive multimodality-ID alignment framework, which achieves instance-level and distribution-level semantic alignment via cross-modal contrastive learning (CMCL) and optimal adaptive transport (OAT), respectively. Theoretically, we demonstrate that the unified representations derived from our alignment framework exhibit superior semantic consistency and comprehensiveness. Extensive experiments on three public benchmarks show that our RecGOAT achieves state-of-the-art performance, empirically validating our theoretical insights. Additionally, the deployment on a large-scale online advertising platform confirms the model's effectiveness and scalability in industrial recommendation scenarios. Code available at https://github.com/6lyc/RecGOAT-LLM4Rec.