다중 모드 추천을 위한 대조 학습 및 호모그래피 관계 정제
Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation
August 19, 2025
저자: Shouxing Ma, Yawen Zeng, Shiqing Wu, Guandong Xu
cs.AI
초록
다중 모드 추천 시스템은 아이템의 풍부한 모드 정보(예: 이미지와 텍스트 설명)를 활용하여 추천 성능을 향상시키는 데 초점을 맞춥니다. 현재의 방법들은 그래프 신경망의 강력한 구조 모델링 능력으로 인해 주목할 만한 성공을 거두었습니다. 그러나 이러한 방법들은 실제 시나리오에서 희소 데이터로 인해 종종 제약을 받습니다. 대조 학습과 동종 그래프(예: 동질 그래프)를 사용하여 데이터 희소성 문제를 해결하려는 시도가 있었음에도 불구하고, 기존 방법들은 여전히 두 가지 주요 한계를 겪고 있습니다: 1) 단순한 다중 모드 특징 대조는 효과적인 표현을 생성하지 못하여 모드 공유 특징에서의 노이즈와 모드 고유 특징에서의 유용한 정보 손실을 초래합니다; 2) 사용자 관심사와 아이템 동시 발생 간의 동종 그래프 관계를 충분히 탐구하지 못함으로써 사용자-아이템 상호작용의 불완전한 발굴이 발생합니다.
이러한 한계를 해결하기 위해, 우리는 다중 모드 대조 학습과 동종 그래프 관계를 정제하는 새로운 프레임워크인 REARM(REfining multi-modAl contRastive learning and hoMography relations)을 제안합니다. 구체적으로, 우리는 메타 네트워크와 직교 제약 전략을 활용하여 다중 모드 대조 학습을 보완함으로써 모드 공유 특징에서의 노이즈를 제거하고 모드 고유 특징에서의 추천 관련 정보를 보존합니다. 동종 관계를 효과적으로 발굴하기 위해, 우리는 새롭게 구성된 사용자 관심 그래프와 아이템 동시 발생 그래프를 기존의 사용자 동시 발생 그래프와 아이템 의미 그래프와 통합하여 그래프 학습을 수행합니다. 세 가지 실제 데이터셋에 대한 광범위한 실험을 통해 REARM이 다양한 최첨단 베이스라인보다 우수함을 입증했습니다. 우리의 시각화 결과는 REARM이 모드 공유 특징과 모드 고유 특징을 구분하는 데 있어 개선을 이루었음을 보여줍니다. 코드는 https://github.com/MrShouxingMa/REARM에서 확인할 수 있습니다.
English
Multi-modal recommender system focuses on utilizing rich modal information (
i.e., images and textual descriptions) of items to improve recommendation
performance. The current methods have achieved remarkable success with the
powerful structure modeling capability of graph neural networks. However, these
methods are often hindered by sparse data in real-world scenarios. Although
contrastive learning and homography ( i.e., homogeneous graphs) are employed to
address the data sparsity challenge, existing methods still suffer two main
limitations: 1) Simple multi-modal feature contrasts fail to produce effective
representations, causing noisy modal-shared features and loss of valuable
information in modal-unique features; 2) The lack of exploration of the
homograph relations between user interests and item co-occurrence results in
incomplete mining of user-item interplay.
To address the above limitations, we propose a novel framework for
REfining multi-modAl contRastive learning
and hoMography relations (REARM). Specifically, we complement
multi-modal contrastive learning by employing meta-network and orthogonal
constraint strategies, which filter out noise in modal-shared features and
retain recommendation-relevant information in modal-unique features. To mine
homogeneous relationships effectively, we integrate a newly constructed user
interest graph and an item co-occurrence graph with the existing user
co-occurrence and item semantic graphs for graph learning. The extensive
experiments on three real-world datasets demonstrate the superiority of REARM
to various state-of-the-art baselines. Our visualization further shows an
improvement made by REARM in distinguishing between modal-shared and
modal-unique features. Code is available
https://github.com/MrShouxingMa/REARM{here}.