Modalitätsausrichtung mit mehrskaliger bilateraler Aufmerksamkeit für multimodale Empfehlungssysteme
Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
September 11, 2025
papers.authors: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee
cs.AI
papers.abstract
Multimodale Empfehlungssysteme werden zunehmend zu grundlegenden Technologien für E-Commerce- und Content-Plattformen, die personalisierte Dienste ermöglichen, indem sie das historische Verhalten der Nutzer und die multimodalen Merkmale von Artikeln (z. B. visuelle und textuelle) gemeinsam modellieren. Die meisten bestehenden Methoden stützen sich jedoch entweder auf statische Fusionsstrategien oder auf graphenbasierte lokale Interaktionsmodellierung und stoßen dabei auf zwei kritische Einschränkungen: (1) eine unzureichende Fähigkeit, feinkörnige cross-modale Assoziationen zu modellieren, was zu einer suboptimalen Fusionsqualität führt; und (2) ein Mangel an globaler Verteilungskonsistenz auf Ebene der Verteilung, was zu Repräsentationsverzerrungen führt. Um diese Probleme zu lösen, schlagen wir MambaRec vor, ein neuartiges Framework, das lokale Feature-Ausrichtung und globale Verteilungsregularisierung durch aufmerksamkeitsgesteuertes Lernen integriert. Im Kern führen wir das Dilated Refinement Attention Module (DREAM) ein, das mehrskalige dilatierte Faltungen mit kanal- und raumbezogener Aufmerksamkeit verwendet, um feinkörnige semantische Muster zwischen visuellen und textuellen Modalitäten auszurichten. Dieses Modul erfasst hierarchische Beziehungen und kontextbewusste Assoziationen und verbessert die cross-modale semantische Modellierung. Zusätzlich wenden wir Maximum Mean Discrepancy (MMD) und kontrastive Verlustfunktionen an, um die globale Modalitätsausrichtung zu beschränken und die semantische Konsistenz zu erhöhen. Diese duale Regularisierung reduziert modalspezifische Abweichungen und steigert die Robustheit. Um die Skalierbarkeit zu verbessern, setzt MambaRec eine Dimensionsreduktionsstrategie ein, um die Rechenkosten hochdimensionaler multimodaler Merkmale zu senken. Umfangreiche Experimente mit realen E-Commerce-Datensätzen zeigen, dass MambaRec bestehende Methoden in Bezug auf Fusionsqualität, Generalisierung und Effizienz übertrifft. Unser Code ist öffentlich unter https://github.com/rkl71/MambaRec verfügbar.
English
Multimodal recommendation systems are increasingly becoming foundational
technologies for e-commerce and content platforms, enabling personalized
services by jointly modeling users' historical behaviors and the multimodal
features of items (e.g., visual and textual). However, most existing methods
rely on either static fusion strategies or graph-based local interaction
modeling, facing two critical limitations: (1) insufficient ability to model
fine-grained cross-modal associations, leading to suboptimal fusion quality;
and (2) a lack of global distribution-level consistency, causing
representational bias. To address these, we propose MambaRec, a novel framework
that integrates local feature alignment and global distribution regularization
via attention-guided learning. At its core, we introduce the Dilated Refinement
Attention Module (DREAM), which uses multi-scale dilated convolutions with
channel-wise and spatial attention to align fine-grained semantic patterns
between visual and textual modalities. This module captures hierarchical
relationships and context-aware associations, improving cross-modal semantic
modeling. Additionally, we apply Maximum Mean Discrepancy (MMD) and contrastive
loss functions to constrain global modality alignment, enhancing semantic
consistency. This dual regularization reduces mode-specific deviations and
boosts robustness. To improve scalability, MambaRec employs a dimensionality
reduction strategy to lower the computational cost of high-dimensional
multimodal features. Extensive experiments on real-world e-commerce datasets
show that MambaRec outperforms existing methods in fusion quality,
generalization, and efficiency. Our code has been made publicly available at
https://github.com/rkl71/MambaRec.