다중모드 추천을 위한 다중 스케일 양방향 주의 기반 모달리티 정렬
Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
September 11, 2025
저자: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee
cs.AI
초록
다중모달 추천 시스템은 전자상거래 및 콘텐츠 플랫폼을 위한 기반 기술로 점차 자리 잡고 있으며, 사용자의 과거 행동과 아이템의 다중모달 특성(예: 시각적 및 텍스트적)을 공동으로 모델링하여 개인화된 서비스를 가능하게 합니다. 그러나 기존의 대부분의 방법은 정적 융합 전략이나 그래프 기반의 지역적 상호작용 모델링에 의존하며, 두 가지 중요한 한계에 직면해 있습니다: (1) 세밀한 교차모달 연관성을 모델링하는 능력이 부족하여 최적의 융합 품질을 달성하지 못함; (2) 전역 분포 수준의 일관성이 부족하여 표현적 편향이 발생함. 이를 해결하기 위해, 우리는 주의 기반 학습을 통해 지역적 특징 정렬과 전역 분포 정규화를 통합한 새로운 프레임워크인 MambaRec을 제안합니다. 핵심적으로, 우리는 다중 스케일 확장 컨볼루션과 채널별 및 공간적 주의를 사용하여 시각적 및 텍스트적 모달리티 간의 세밀한 의미 패턴을 정렬하는 Dilated Refinement Attention Module (DREAM)을 도입했습니다. 이 모듈은 계층적 관계와 문맥 인식 연관성을 포착하여 교차모달 의미 모델링을 개선합니다. 또한, 우리는 전역 모달리티 정렬을 제약하기 위해 Maximum Mean Discrepancy (MMD)와 대조 손실 함수를 적용하여 의미 일관성을 강화합니다. 이 이중 정규화는 모드별 편차를 줄이고 견고성을 높입니다. 확장성을 개선하기 위해, MambaRec은 고차원 다중모달 특징의 계산 비용을 낮추기 위한 차원 축소 전략을 사용합니다. 실제 전자상거래 데이터셋에 대한 광범위한 실험 결과, MambaRec은 융합 품질, 일반화 및 효율성 측면에서 기존 방법을 능가하는 성능을 보여줍니다. 우리의 코드는 https://github.com/rkl71/MambaRec에서 공개되었습니다.
English
Multimodal recommendation systems are increasingly becoming foundational
technologies for e-commerce and content platforms, enabling personalized
services by jointly modeling users' historical behaviors and the multimodal
features of items (e.g., visual and textual). However, most existing methods
rely on either static fusion strategies or graph-based local interaction
modeling, facing two critical limitations: (1) insufficient ability to model
fine-grained cross-modal associations, leading to suboptimal fusion quality;
and (2) a lack of global distribution-level consistency, causing
representational bias. To address these, we propose MambaRec, a novel framework
that integrates local feature alignment and global distribution regularization
via attention-guided learning. At its core, we introduce the Dilated Refinement
Attention Module (DREAM), which uses multi-scale dilated convolutions with
channel-wise and spatial attention to align fine-grained semantic patterns
between visual and textual modalities. This module captures hierarchical
relationships and context-aware associations, improving cross-modal semantic
modeling. Additionally, we apply Maximum Mean Discrepancy (MMD) and contrastive
loss functions to constrain global modality alignment, enhancing semantic
consistency. This dual regularization reduces mode-specific deviations and
boosts robustness. To improve scalability, MambaRec employs a dimensionality
reduction strategy to lower the computational cost of high-dimensional
multimodal features. Extensive experiments on real-world e-commerce datasets
show that MambaRec outperforms existing methods in fusion quality,
generalization, and efficiency. Our code has been made publicly available at
https://github.com/rkl71/MambaRec.