ChatPaper.aiChatPaper

RecGOAT: Графовый оптимальный адаптивный транспорт для многомодальных рекомендаций с улучшением за счет больших языковых моделей и двойного семантического выравнивания

RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment

January 31, 2026
Авторы: Yuecheng Li, Hengwei Ju, Zeyu Song, Wei Yang, Chi Lu, Peng Jiang, Kun Gai
cs.AI

Аннотация

Мультимодальные системы рекомендаций обычно интегрируют поведение пользователей с мультимодальными данными объектов, что позволяет выявлять более точные пользовательские предпочтения. Одновременно с ростом популярности больших моделей (БМ) мультимодальные рекомендации всё активнее используют их преимущества в области семантического понимания и контекстного анализа. Однако представления, формируемые БМ, изначально оптимизированы для общих семантических задач, в то время как рекомендательные модели в значительной степени опираются на разреженные характеристики уникальных идентификаторов (ID) пользователей и объектов. Существующие подходы игнорируют фундаментальное расхождение в представлениях между большими моделями и системами рекомендаций, что приводит к несовместимости мультимодальных представлений и неоптимальной производительности рекомендаций. Для преодоления этого разрыва мы предлагаем RecGOAT — новую, но простую дуальную систему семантического выравнивания для мультимодальных рекомендаций, усиленных большими языковыми моделями, которая обеспечивает теоретически гарантированную способность к выравниванию. RecGOAT сначала использует графовые сети внимания для обогащения коллаборативной семантики путём моделирования отношений "объект-объект", "пользователь-объект" и "пользователь-пользователь" с использованием представлений БМ для пользователей/объектов и истории взаимодействий. Кроме того, мы разрабатываем прогрессивную систему выравнивания мультимодальности и ID на двух уровнях детализации, которая достигает семантического выравнивания на уровне экземпляров и на уровне распределения с помощью контрастивного обучения между модальностями (CMCL) и оптимального адаптивного транспорта (OAT) соответственно. Теоретически мы демонстрируем, что унифицированные представления, полученные с помощью нашей системы выравнивания, обладают превосходной семантической согласованностью и полнотой. Многочисленные эксперименты на трёх публичных наборах данных показывают, что наш RecGOAT достигает наилучшей производительности, что эмпирически подтверждает наши теоретические выводы. Дополнительно развёртывание на крупной платформе онлайн-рекламы подтвердило эффективность и масштабируемость модели в промышленных сценариях рекомендаций. Код доступен по адресу https://github.com/6lyc/RecGOAT-LLM4Rec.
English
Multimodal recommendation systems typically integrates user behavior with multimodal data from items, thereby capturing more accurate user preferences. Concurrently, with the rise of large models (LMs), multimodal recommendation is increasingly leveraging their strengths in semantic understanding and contextual reasoning. However, LM representations are inherently optimized for general semantic tasks, while recommendation models rely heavily on sparse user/item unique identity (ID) features. Existing works overlook the fundamental representational divergence between large models and recommendation systems, resulting in incompatible multimodal representations and suboptimal recommendation performance. To bridge this gap, we propose RecGOAT, a novel yet simple dual semantic alignment framework for LLM-enhanced multimodal recommendation, which offers theoretically guaranteed alignment capability. RecGOAT first employs graph attention networks to enrich collaborative semantics by modeling item-item, user-item, and user-user relationships, leveraging user/item LM representations and interaction history. Furthermore, we design a dual-granularity progressive multimodality-ID alignment framework, which achieves instance-level and distribution-level semantic alignment via cross-modal contrastive learning (CMCL) and optimal adaptive transport (OAT), respectively. Theoretically, we demonstrate that the unified representations derived from our alignment framework exhibit superior semantic consistency and comprehensiveness. Extensive experiments on three public benchmarks show that our RecGOAT achieves state-of-the-art performance, empirically validating our theoretical insights. Additionally, the deployment on a large-scale online advertising platform confirms the model's effectiveness and scalability in industrial recommendation scenarios. Code available at https://github.com/6lyc/RecGOAT-LLM4Rec.
PDF11February 5, 2026