Alignement des modalités avec attention bilatérale multi-échelle pour la recommandation multimodale
Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
September 11, 2025
papers.authors: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee
cs.AI
papers.abstract
Les systèmes de recommandation multimodaux deviennent de plus en plus des technologies fondamentales pour les plateformes de commerce électronique et de contenu, permettant des services personnalisés en modélisant conjointement les comportements historiques des utilisateurs et les caractéristiques multimodales des articles (par exemple, visuelles et textuelles). Cependant, la plupart des méthodes existantes reposent soit sur des stratégies de fusion statiques, soit sur une modélisation des interactions locales basée sur des graphes, faisant face à deux limitations critiques : (1) une capacité insuffisante à modéliser les associations intermodales fines, conduisant à une qualité de fusion sous-optimale ; et (2) un manque de cohérence au niveau de la distribution globale, entraînant un biais de représentation. Pour y remédier, nous proposons MambaRec, un nouveau cadre qui intègre l'alignement local des caractéristiques et la régularisation globale de la distribution via un apprentissage guidé par l'attention. Au cœur de ce cadre, nous introduisons le module d'attention de raffinement dilaté (DREAM), qui utilise des convolutions dilatées multi-échelles avec une attention canal par canal et spatiale pour aligner les motifs sémantiques fins entre les modalités visuelles et textuelles. Ce module capture les relations hiérarchiques et les associations contextuelles, améliorant la modélisation sémantique intermodale. De plus, nous appliquons la divergence maximale moyenne (MMD) et des fonctions de perte contrastives pour contraindre l'alignement global des modalités, renforçant ainsi la cohérence sémantique. Cette double régularisation réduit les déviations spécifiques aux modes et améliore la robustesse. Pour améliorer l'évolutivité, MambaRec emploie une stratégie de réduction de dimensionnalité pour diminuer le coût computationnel des caractéristiques multimodales de haute dimension. Des expériences approfondies sur des ensembles de données de commerce électronique réels montrent que MambaRec surpasse les méthodes existantes en termes de qualité de fusion, de généralisation et d'efficacité. Notre code est disponible publiquement à l'adresse suivante : https://github.com/rkl71/MambaRec.
English
Multimodal recommendation systems are increasingly becoming foundational
technologies for e-commerce and content platforms, enabling personalized
services by jointly modeling users' historical behaviors and the multimodal
features of items (e.g., visual and textual). However, most existing methods
rely on either static fusion strategies or graph-based local interaction
modeling, facing two critical limitations: (1) insufficient ability to model
fine-grained cross-modal associations, leading to suboptimal fusion quality;
and (2) a lack of global distribution-level consistency, causing
representational bias. To address these, we propose MambaRec, a novel framework
that integrates local feature alignment and global distribution regularization
via attention-guided learning. At its core, we introduce the Dilated Refinement
Attention Module (DREAM), which uses multi-scale dilated convolutions with
channel-wise and spatial attention to align fine-grained semantic patterns
between visual and textual modalities. This module captures hierarchical
relationships and context-aware associations, improving cross-modal semantic
modeling. Additionally, we apply Maximum Mean Discrepancy (MMD) and contrastive
loss functions to constrain global modality alignment, enhancing semantic
consistency. This dual regularization reduces mode-specific deviations and
boosts robustness. To improve scalability, MambaRec employs a dimensionality
reduction strategy to lower the computational cost of high-dimensional
multimodal features. Extensive experiments on real-world e-commerce datasets
show that MambaRec outperforms existing methods in fusion quality,
generalization, and efficiency. Our code has been made publicly available at
https://github.com/rkl71/MambaRec.