Refinamiento del Aprendizaje Contrastivo y las Relaciones de Homografía para la Recomendación Multimodal
Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation
August 19, 2025
Autores: Shouxing Ma, Yawen Zeng, Shiqing Wu, Guandong Xu
cs.AI
Resumen
El sistema de recomendación multimodal se centra en utilizar información modal rica (es decir, imágenes y descripciones textuales) de los elementos para mejorar el rendimiento de las recomendaciones. Los métodos actuales han logrado un éxito notable gracias a la potente capacidad de modelado estructural de las redes neuronales de grafos. Sin embargo, estos métodos a menudo se ven obstaculizados por la escasez de datos en escenarios del mundo real. Aunque se emplean el aprendizaje contrastivo y la homografía (es decir, grafos homogéneos) para abordar el desafío de la escasez de datos, los métodos existentes aún presentan dos limitaciones principales: 1) Los contrastes simples de características multimodales no logran producir representaciones efectivas, lo que genera características compartidas ruidosas y la pérdida de información valiosa en las características únicas de cada modalidad; 2) La falta de exploración de las relaciones homográficas entre los intereses del usuario y la co-ocurrencia de elementos resulta en una minería incompleta de la interacción usuario-elemento.
Para abordar estas limitaciones, proponemos un marco novedoso para el refinamiento del aprendizaje contrastivo multimodal y las relaciones de homografía (REARM). Específicamente, complementamos el aprendizaje contrastivo multimodal mediante el empleo de estrategias de meta-red y restricciones ortogonales, que filtran el ruido en las características compartidas y retienen la información relevante para las recomendaciones en las características únicas de cada modalidad. Para explotar eficazmente las relaciones homogéneas, integramos un nuevo grafo de intereses del usuario y un grafo de co-ocurrencia de elementos con los grafos existentes de co-ocurrencia de usuarios y semántica de elementos para el aprendizaje de grafos. Los extensos experimentos en tres conjuntos de datos del mundo real demuestran la superioridad de REARM frente a varios métodos de vanguardia. Nuestra visualización muestra además una mejora lograda por REARM en la distinción entre características compartidas y únicas de cada modalidad. El código está disponible {aquí}.
English
Multi-modal recommender system focuses on utilizing rich modal information (
i.e., images and textual descriptions) of items to improve recommendation
performance. The current methods have achieved remarkable success with the
powerful structure modeling capability of graph neural networks. However, these
methods are often hindered by sparse data in real-world scenarios. Although
contrastive learning and homography ( i.e., homogeneous graphs) are employed to
address the data sparsity challenge, existing methods still suffer two main
limitations: 1) Simple multi-modal feature contrasts fail to produce effective
representations, causing noisy modal-shared features and loss of valuable
information in modal-unique features; 2) The lack of exploration of the
homograph relations between user interests and item co-occurrence results in
incomplete mining of user-item interplay.
To address the above limitations, we propose a novel framework for
REfining multi-modAl contRastive learning
and hoMography relations (REARM). Specifically, we complement
multi-modal contrastive learning by employing meta-network and orthogonal
constraint strategies, which filter out noise in modal-shared features and
retain recommendation-relevant information in modal-unique features. To mine
homogeneous relationships effectively, we integrate a newly constructed user
interest graph and an item co-occurrence graph with the existing user
co-occurrence and item semantic graphs for graph learning. The extensive
experiments on three real-world datasets demonstrate the superiority of REARM
to various state-of-the-art baselines. Our visualization further shows an
improvement made by REARM in distinguishing between modal-shared and
modal-unique features. Code is available
https://github.com/MrShouxingMa/REARM{here}.