Alinhamento de Modalidades com Atenção Bilateral Multiescala para Recomendação Multimodal
Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
September 11, 2025
Autores: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee
cs.AI
Resumo
Os sistemas de recomendação multimodal estão se tornando cada vez mais tecnologias fundamentais para plataformas de e-commerce e conteúdo, permitindo serviços personalizados ao modelar conjuntamente os comportamentos históricos dos usuários e as características multimodais dos itens (por exemplo, visuais e textuais). No entanto, a maioria dos métodos existentes depende de estratégias de fusão estáticas ou de modelagem de interação local baseada em grafos, enfrentando duas limitações críticas: (1) capacidade insuficiente para modelar associações cruzadas de modalidades em nível granular, levando a uma qualidade de fusão subótima; e (2) falta de consistência em nível de distribuição global, causando viés representacional. Para abordar esses problemas, propomos o MambaRec, uma nova estrutura que integra alinhamento local de características e regularização de distribuição global por meio de aprendizado guiado por atenção. Em seu núcleo, introduzimos o Módulo de Atenção de Refinamento Dilatado (DREAM), que utiliza convoluções dilatadas multiescala com atenção espacial e por canal para alinhar padrões semânticos granulares entre as modalidades visual e textual. Esse módulo captura relações hierárquicas e associações contextuais, melhorando a modelagem semântica cruzada. Além disso, aplicamos a Discrepância de Média Máxima (MMD) e funções de perda contrastiva para restringir o alinhamento global de modalidades, aumentando a consistência semântica. Essa dupla regularização reduz desvios específicos de modalidade e aumenta a robustez. Para melhorar a escalabilidade, o MambaRec emprega uma estratégia de redução de dimensionalidade para diminuir o custo computacional de características multimodais de alta dimensão. Experimentos extensivos em conjuntos de dados reais de e-commerce mostram que o MambaRec supera os métodos existentes em qualidade de fusão, generalização e eficiência. Nosso código foi disponibilizado publicamente em https://github.com/rkl71/MambaRec.
English
Multimodal recommendation systems are increasingly becoming foundational
technologies for e-commerce and content platforms, enabling personalized
services by jointly modeling users' historical behaviors and the multimodal
features of items (e.g., visual and textual). However, most existing methods
rely on either static fusion strategies or graph-based local interaction
modeling, facing two critical limitations: (1) insufficient ability to model
fine-grained cross-modal associations, leading to suboptimal fusion quality;
and (2) a lack of global distribution-level consistency, causing
representational bias. To address these, we propose MambaRec, a novel framework
that integrates local feature alignment and global distribution regularization
via attention-guided learning. At its core, we introduce the Dilated Refinement
Attention Module (DREAM), which uses multi-scale dilated convolutions with
channel-wise and spatial attention to align fine-grained semantic patterns
between visual and textual modalities. This module captures hierarchical
relationships and context-aware associations, improving cross-modal semantic
modeling. Additionally, we apply Maximum Mean Discrepancy (MMD) and contrastive
loss functions to constrain global modality alignment, enhancing semantic
consistency. This dual regularization reduces mode-specific deviations and
boosts robustness. To improve scalability, MambaRec employs a dimensionality
reduction strategy to lower the computational cost of high-dimensional
multimodal features. Extensive experiments on real-world e-commerce datasets
show that MambaRec outperforms existing methods in fusion quality,
generalization, and efficiency. Our code has been made publicly available at
https://github.com/rkl71/MambaRec.