Alineación de Modalidades con Atención Bilateral Multi-escala para Recomendación Multimodal
Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation
September 11, 2025
Autores: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee
cs.AI
Resumen
Los sistemas de recomendación multimodal se están convirtiendo cada vez más en tecnologías fundamentales para plataformas de comercio electrónico y contenido, permitiendo servicios personalizados mediante el modelado conjunto de los comportamientos históricos de los usuarios y las características multimodales de los ítems (por ejemplo, visuales y textuales). Sin embargo, la mayoría de los métodos existentes dependen de estrategias de fusión estáticas o del modelado de interacciones locales basadas en grafos, enfrentando dos limitaciones críticas: (1) capacidad insuficiente para modelar asociaciones cruzadas multimodales de grano fino, lo que lleva a una calidad de fusión subóptima; y (2) falta de consistencia a nivel de distribución global, causando sesgos representacionales. Para abordar estos problemas, proponemos MambaRec, un marco novedoso que integra la alineación local de características y la regularización global de distribución mediante aprendizaje guiado por atención. En su núcleo, introducimos el Módulo de Atención de Refinamiento Dilatado (DREAM), que utiliza convoluciones dilatadas multiescala con atención a nivel de canal y espacial para alinear patrones semánticos de grano fino entre las modalidades visual y textual. Este módulo captura relaciones jerárquicas y asociaciones conscientes del contexto, mejorando el modelado semántico cruzado. Además, aplicamos la Discrepancia de Media Máxima (MMD) y funciones de pérdida contrastiva para restringir la alineación global de modalidades, mejorando la consistencia semántica. Esta doble regularización reduce las desviaciones específicas de modo y aumenta la robustez. Para mejorar la escalabilidad, MambaRec emplea una estrategia de reducción de dimensionalidad para disminuir el costo computacional de las características multimodales de alta dimensión. Experimentos extensos en conjuntos de datos de comercio electrónico del mundo real muestran que MambaRec supera a los métodos existentes en calidad de fusión, generalización y eficiencia. Nuestro código ha sido puesto a disposición públicamente en https://github.com/rkl71/MambaRec.
English
Multimodal recommendation systems are increasingly becoming foundational
technologies for e-commerce and content platforms, enabling personalized
services by jointly modeling users' historical behaviors and the multimodal
features of items (e.g., visual and textual). However, most existing methods
rely on either static fusion strategies or graph-based local interaction
modeling, facing two critical limitations: (1) insufficient ability to model
fine-grained cross-modal associations, leading to suboptimal fusion quality;
and (2) a lack of global distribution-level consistency, causing
representational bias. To address these, we propose MambaRec, a novel framework
that integrates local feature alignment and global distribution regularization
via attention-guided learning. At its core, we introduce the Dilated Refinement
Attention Module (DREAM), which uses multi-scale dilated convolutions with
channel-wise and spatial attention to align fine-grained semantic patterns
between visual and textual modalities. This module captures hierarchical
relationships and context-aware associations, improving cross-modal semantic
modeling. Additionally, we apply Maximum Mean Discrepancy (MMD) and contrastive
loss functions to constrain global modality alignment, enhancing semantic
consistency. This dual regularization reduces mode-specific deviations and
boosts robustness. To improve scalability, MambaRec employs a dimensionality
reduction strategy to lower the computational cost of high-dimensional
multimodal features. Extensive experiments on real-world e-commerce datasets
show that MambaRec outperforms existing methods in fusion quality,
generalization, and efficiency. Our code has been made publicly available at
https://github.com/rkl71/MambaRec.