Allineamento delle Modalità con Attenzione Bilaterale Multi-scala per la Raccomandazione Multimodale
Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
September 11, 2025
Autori: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee
cs.AI
Abstract
I sistemi di raccomandazione multimodale stanno diventando sempre più tecnologie fondamentali per le piattaforme di e-commerce e di contenuti, abilitando servizi personalizzati attraverso la modellazione congiunta dei comportamenti storici degli utenti e delle caratteristiche multimodali degli articoli (ad esempio, visive e testuali). Tuttavia, la maggior parte dei metodi esistenti si basa su strategie di fusione statiche o sulla modellazione delle interazioni locali basate su grafi, affrontando due limitazioni critiche: (1) un'abilità insufficiente nel modellare associazioni cross-modali a grana fine, portando a una qualità di fusione subottimale; e (2) una mancanza di coerenza a livello di distribuzione globale, causando un bias rappresentativo. Per affrontare questi problemi, proponiamo MambaRec, un nuovo framework che integra l'allineamento delle caratteristiche locali e la regolarizzazione della distribuzione globale attraverso l'apprendimento guidato dall'attenzione. Al suo core, introduciamo il Dilated Refinement Attention Module (DREAM), che utilizza convoluzioni dilatate multi-scala con attenzione a livello di canale e spaziale per allineare i pattern semantici a grana fine tra le modalità visive e testuali. Questo modulo cattura relazioni gerarchiche e associazioni contestuali, migliorando la modellazione semantica cross-modale. Inoltre, applichiamo la Maximum Mean Discrepancy (MMD) e funzioni di perdita contrastive per vincolare l'allineamento globale delle modalità, migliorando la coerenza semantica. Questa doppia regolarizzazione riduce le deviazioni specifiche della modalità e aumenta la robustezza. Per migliorare la scalabilità, MambaRec impiega una strategia di riduzione della dimensionalità per abbattere il costo computazionale delle caratteristiche multimodali ad alta dimensionalità. Esperimenti estesi su dataset reali di e-commerce dimostrano che MambaRec supera i metodi esistenti in termini di qualità di fusione, generalizzazione ed efficienza. Il nostro codice è stato reso pubblicamente disponibile all'indirizzo https://github.com/rkl71/MambaRec.
English
Multimodal recommendation systems are increasingly becoming foundational
technologies for e-commerce and content platforms, enabling personalized
services by jointly modeling users' historical behaviors and the multimodal
features of items (e.g., visual and textual). However, most existing methods
rely on either static fusion strategies or graph-based local interaction
modeling, facing two critical limitations: (1) insufficient ability to model
fine-grained cross-modal associations, leading to suboptimal fusion quality;
and (2) a lack of global distribution-level consistency, causing
representational bias. To address these, we propose MambaRec, a novel framework
that integrates local feature alignment and global distribution regularization
via attention-guided learning. At its core, we introduce the Dilated Refinement
Attention Module (DREAM), which uses multi-scale dilated convolutions with
channel-wise and spatial attention to align fine-grained semantic patterns
between visual and textual modalities. This module captures hierarchical
relationships and context-aware associations, improving cross-modal semantic
modeling. Additionally, we apply Maximum Mean Discrepancy (MMD) and contrastive
loss functions to constrain global modality alignment, enhancing semantic
consistency. This dual regularization reduces mode-specific deviations and
boosts robustness. To improve scalability, MambaRec employs a dimensionality
reduction strategy to lower the computational cost of high-dimensional
multimodal features. Extensive experiments on real-world e-commerce datasets
show that MambaRec outperforms existing methods in fusion quality,
generalization, and efficiency. Our code has been made publicly available at
https://github.com/rkl71/MambaRec.