Согласование модальностей с использованием многоуровневого двустороннего внимания для многомодальных рекомендаций
Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
September 11, 2025
Авторы: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee
cs.AI
Аннотация
Мультимодальные системы рекомендаций становятся все более фундаментальными технологиями для электронной коммерции и контент-платформ, обеспечивая персонализированные услуги за счет совместного моделирования исторического поведения пользователей и мультимодальных характеристик товаров (например, визуальных и текстовых). Однако большинство существующих методов полагаются либо на статические стратегии слияния, либо на моделирование локальных взаимодействий на основе графов, сталкиваясь с двумя критическими ограничениями: (1) недостаточная способность моделировать тонкие межмодальные ассоциации, что приводит к неоптимальному качеству слияния; и (2) отсутствие глобальной согласованности на уровне распределения, вызывающее смещение в представлениях. Для решения этих проблем мы предлагаем MambaRec, новую структуру, которая интегрирует локальное выравнивание признаков и глобальную регуляризацию распределения с помощью обучения, управляемого вниманием. В ее основе лежит модуль Dilated Refinement Attention Module (DREAM), который использует многомасштабные дилатированные свертки с канальным и пространственным вниманием для выравнивания тонких семантических паттернов между визуальными и текстовыми модальностями. Этот модуль захватывает иерархические отношения и контекстно-зависимые ассоциации, улучшая межмодальное семантическое моделирование. Дополнительно мы применяем функции потерь Maximum Mean Discrepancy (MMD) и контрастивные функции потерь для ограничения глобального выравнивания модальностей, повышая семантическую согласованность. Эта двойная регуляризация уменьшает отклонения, специфичные для модальностей, и повышает устойчивость. Для улучшения масштабируемости MambaRec использует стратегию снижения размерности, чтобы уменьшить вычислительную стоимость высокоразмерных мультимодальных признаков. Экстенсивные эксперименты на реальных наборах данных электронной коммерции показывают, что MambaRec превосходит существующие методы по качеству слияния, обобщаемости и эффективности. Наш код доступен публично по адресу https://github.com/rkl71/MambaRec.
English
Multimodal recommendation systems are increasingly becoming foundational
technologies for e-commerce and content platforms, enabling personalized
services by jointly modeling users' historical behaviors and the multimodal
features of items (e.g., visual and textual). However, most existing methods
rely on either static fusion strategies or graph-based local interaction
modeling, facing two critical limitations: (1) insufficient ability to model
fine-grained cross-modal associations, leading to suboptimal fusion quality;
and (2) a lack of global distribution-level consistency, causing
representational bias. To address these, we propose MambaRec, a novel framework
that integrates local feature alignment and global distribution regularization
via attention-guided learning. At its core, we introduce the Dilated Refinement
Attention Module (DREAM), which uses multi-scale dilated convolutions with
channel-wise and spatial attention to align fine-grained semantic patterns
between visual and textual modalities. This module captures hierarchical
relationships and context-aware associations, improving cross-modal semantic
modeling. Additionally, we apply Maximum Mean Discrepancy (MMD) and contrastive
loss functions to constrain global modality alignment, enhancing semantic
consistency. This dual regularization reduces mode-specific deviations and
boosts robustness. To improve scalability, MambaRec employs a dimensionality
reduction strategy to lower the computational cost of high-dimensional
multimodal features. Extensive experiments on real-world e-commerce datasets
show that MambaRec outperforms existing methods in fusion quality,
generalization, and efficiency. Our code has been made publicly available at
https://github.com/rkl71/MambaRec.