ChatPaper.aiChatPaper

다중 모드 추천을 위한 대조 학습 및 호모그래피 관계 정제

Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation

August 19, 2025
저자: Shouxing Ma, Yawen Zeng, Shiqing Wu, Guandong Xu
cs.AI

초록

다중 모드 추천 시스템은 아이템의 풍부한 모드 정보(예: 이미지와 텍스트 설명)를 활용하여 추천 성능을 향상시키는 데 초점을 맞춥니다. 현재의 방법들은 그래프 신경망의 강력한 구조 모델링 능력으로 인해 주목할 만한 성공을 거두었습니다. 그러나 이러한 방법들은 실제 시나리오에서 희소 데이터로 인해 종종 제약을 받습니다. 대조 학습과 동종 그래프(예: 동질 그래프)를 사용하여 데이터 희소성 문제를 해결하려는 시도가 있었음에도 불구하고, 기존 방법들은 여전히 두 가지 주요 한계를 겪고 있습니다: 1) 단순한 다중 모드 특징 대조는 효과적인 표현을 생성하지 못하여 모드 공유 특징에서의 노이즈와 모드 고유 특징에서의 유용한 정보 손실을 초래합니다; 2) 사용자 관심사와 아이템 동시 발생 간의 동종 그래프 관계를 충분히 탐구하지 못함으로써 사용자-아이템 상호작용의 불완전한 발굴이 발생합니다. 이러한 한계를 해결하기 위해, 우리는 다중 모드 대조 학습과 동종 그래프 관계를 정제하는 새로운 프레임워크인 REARM(REfining multi-modAl contRastive learning and hoMography relations)을 제안합니다. 구체적으로, 우리는 메타 네트워크와 직교 제약 전략을 활용하여 다중 모드 대조 학습을 보완함으로써 모드 공유 특징에서의 노이즈를 제거하고 모드 고유 특징에서의 추천 관련 정보를 보존합니다. 동종 관계를 효과적으로 발굴하기 위해, 우리는 새롭게 구성된 사용자 관심 그래프와 아이템 동시 발생 그래프를 기존의 사용자 동시 발생 그래프와 아이템 의미 그래프와 통합하여 그래프 학습을 수행합니다. 세 가지 실제 데이터셋에 대한 광범위한 실험을 통해 REARM이 다양한 최첨단 베이스라인보다 우수함을 입증했습니다. 우리의 시각화 결과는 REARM이 모드 공유 특징과 모드 고유 특징을 구분하는 데 있어 개선을 이루었음을 보여줍니다. 코드는 https://github.com/MrShouxingMa/REARM에서 확인할 수 있습니다.
English
Multi-modal recommender system focuses on utilizing rich modal information ( i.e., images and textual descriptions) of items to improve recommendation performance. The current methods have achieved remarkable success with the powerful structure modeling capability of graph neural networks. However, these methods are often hindered by sparse data in real-world scenarios. Although contrastive learning and homography ( i.e., homogeneous graphs) are employed to address the data sparsity challenge, existing methods still suffer two main limitations: 1) Simple multi-modal feature contrasts fail to produce effective representations, causing noisy modal-shared features and loss of valuable information in modal-unique features; 2) The lack of exploration of the homograph relations between user interests and item co-occurrence results in incomplete mining of user-item interplay. To address the above limitations, we propose a novel framework for REfining multi-modAl contRastive learning and hoMography relations (REARM). Specifically, we complement multi-modal contrastive learning by employing meta-network and orthogonal constraint strategies, which filter out noise in modal-shared features and retain recommendation-relevant information in modal-unique features. To mine homogeneous relationships effectively, we integrate a newly constructed user interest graph and an item co-occurrence graph with the existing user co-occurrence and item semantic graphs for graph learning. The extensive experiments on three real-world datasets demonstrate the superiority of REARM to various state-of-the-art baselines. Our visualization further shows an improvement made by REARM in distinguishing between modal-shared and modal-unique features. Code is available https://github.com/MrShouxingMa/REARM{here}.
PDF02August 21, 2025