Refinamiento del Aprendizaje Contrastivo y las Relaciones de Homografía para la Recomendación Multimodal

Resumen

El sistema de recomendación multimodal se centra en utilizar información modal rica (es decir, imágenes y descripciones textuales) de los elementos para mejorar el rendimiento de las recomendaciones. Los métodos actuales han logrado un éxito notable gracias a la potente capacidad de modelado estructural de las redes neuronales de grafos. Sin embargo, estos métodos a menudo se ven obstaculizados por la escasez de datos en escenarios del mundo real. Aunque se emplean el aprendizaje contrastivo y la homografía (es decir, grafos homogéneos) para abordar el desafío de la escasez de datos, los métodos existentes aún presentan dos limitaciones principales: 1) Los contrastes simples de características multimodales no logran producir representaciones efectivas, lo que genera características compartidas ruidosas y la pérdida de información valiosa en las características únicas de cada modalidad; 2) La falta de exploración de las relaciones homográficas entre los intereses del usuario y la co-ocurrencia de elementos resulta en una minería incompleta de la interacción usuario-elemento. Para abordar estas limitaciones, proponemos un marco novedoso para el refinamiento del aprendizaje contrastivo multimodal y las relaciones de homografía (REARM). Específicamente, complementamos el aprendizaje contrastivo multimodal mediante el empleo de estrategias de meta-red y restricciones ortogonales, que filtran el ruido en las características compartidas y retienen la información relevante para las recomendaciones en las características únicas de cada modalidad. Para explotar eficazmente las relaciones homogéneas, integramos un nuevo grafo de intereses del usuario y un grafo de co-ocurrencia de elementos con los grafos existentes de co-ocurrencia de usuarios y semántica de elementos para el aprendizaje de grafos. Los extensos experimentos en tres conjuntos de datos del mundo real demuestran la superioridad de REARM frente a varios métodos de vanguardia. Nuestra visualización muestra además una mejora lograda por REARM en la distinción entre características compartidas y únicas de cada modalidad. El código está disponible {aquí}.

English

Multi-modal recommender system focuses on utilizing rich modal information ( i.e., images and textual descriptions) of items to improve recommendation performance. The current methods have achieved remarkable success with the powerful structure modeling capability of graph neural networks. However, these methods are often hindered by sparse data in real-world scenarios. Although contrastive learning and homography ( i.e., homogeneous graphs) are employed to address the data sparsity challenge, existing methods still suffer two main limitations: 1) Simple multi-modal feature contrasts fail to produce effective representations, causing noisy modal-shared features and loss of valuable information in modal-unique features; 2) The lack of exploration of the homograph relations between user interests and item co-occurrence results in incomplete mining of user-item interplay. To address the above limitations, we propose a novel framework for REfining multi-modAl contRastive learning and hoMography relations (REARM). Specifically, we complement multi-modal contrastive learning by employing meta-network and orthogonal constraint strategies, which filter out noise in modal-shared features and retain recommendation-relevant information in modal-unique features. To mine homogeneous relationships effectively, we integrate a newly constructed user interest graph and an item co-occurrence graph with the existing user co-occurrence and item semantic graphs for graph learning. The extensive experiments on three real-world datasets demonstrate the superiority of REARM to various state-of-the-art baselines. Our visualization further shows an improvement made by REARM in distinguishing between modal-shared and modal-unique features. Code is available https://github.com/MrShouxingMa/REARM{here}.

Refinamiento del Aprendizaje Contrastivo y las Relaciones de Homografía para la Recomendación Multimodal

Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation

Resumen

Support