ChatPaper.aiChatPaper

CM^3: 멀티모달 추천 시스템 보정

CM^3: Calibrating Multimodal Recommendation

August 2, 2025
저자: Xin Zhou, Yongjie Wang, Zhiqi Shen
cs.AI

초록

정렬(Alignment)과 균일성(Uniformity)은 대조 학습(Contrastive Learning) 분야의 근본적인 원칙들입니다. 추천 시스템에서, 기존 연구들은 베이지안 개인화 순위(Bayesian Personalized Ranking, BPR) 손실을 최적화하는 것이 정렬과 균일성 목표에 기여한다는 것을 입증했습니다. 구체적으로, 정렬은 상호작용하는 사용자와 아이템의 표현을 가깝게 만드는 것을 목표로 하는 반면, 균일성은 사용자와 아이템 임베딩이 단위 초구(unit hypersphere) 상에서 균일하게 분포되도록 요구합니다. 본 연구는 다중모드(multimodal) 추천 시스템의 맥락에서 정렬과 균일성 특성을 재조명하며, 기존 모델들이 균일성을 지나치게 강조함으로써 정렬을 희생시키는 경향이 있음을 밝혔습니다. 우리의 가설은 균일성 손실을 통한 아이템의 동등한 처리를 전제로 한 기존의 관례에 도전하며, 유사한 다중모드 속성을 가진 아이템들이 초구 매니폴드 내에서 근접한 표현으로 수렴하도록 하는 보다 세밀한 접근 방식을 제안합니다. 특히, 아이템의 다중모드 데이터 간의 내재적 유사성을 활용하여 균일성 분포를 조정함으로써, 임베딩 공간 내에서 서로 다른 개체들 간의 반발력을 더욱 강화합니다. 이론적 분석을 통해 이 조정된 균일성 손실과 기존 균일성 함수 간의 관계를 명확히 합니다. 또한, 다중모드 특징의 융합을 강화하기 위해, 임의의 수의 모드를 통합하면서도 결과적으로 융합된 특징이 동일한 초구 매니폴드에 제약되도록 설계된 구형 베지어(Spherical Bézier) 방법을 도입합니다. 5개의 실제 데이터셋에서 수행된 실험적 평가는 우리의 접근 방식이 경쟁 모델들보다 우수함을 입증합니다. 또한, 제안된 방법들이 MLLM(Multimodal Large Language Model)에서 추출된 특징을 통합함으로써 NDCG@20 성능을 최대 5.4%까지 향상시킬 수 있음을 보여줍니다. 소스 코드는 https://github.com/enoche/CM3에서 확인할 수 있습니다.
English
Alignment and uniformity are fundamental principles within the domain of contrastive learning. In recommender systems, prior work has established that optimizing the Bayesian Personalized Ranking (BPR) loss contributes to the objectives of alignment and uniformity. Specifically, alignment aims to draw together the representations of interacting users and items, while uniformity mandates a uniform distribution of user and item embeddings across a unit hypersphere. This study revisits the alignment and uniformity properties within the context of multimodal recommender systems, revealing a proclivity among extant models to prioritize uniformity to the detriment of alignment. Our hypothesis challenges the conventional assumption of equitable item treatment through a uniformity loss, proposing a more nuanced approach wherein items with similar multimodal attributes converge toward proximal representations within the hyperspheric manifold. Specifically, we leverage the inherent similarity between items' multimodal data to calibrate their uniformity distribution, thereby inducing a more pronounced repulsive force between dissimilar entities within the embedding space. A theoretical analysis elucidates the relationship between this calibrated uniformity loss and the conventional uniformity function. Moreover, to enhance the fusion of multimodal features, we introduce a Spherical B\'ezier method designed to integrate an arbitrary number of modalities while ensuring that the resulting fused features are constrained to the same hyperspherical manifold. Empirical evaluations conducted on five real-world datasets substantiate the superiority of our approach over competing baselines. We also shown that the proposed methods can achieve up to a 5.4% increase in NDCG@20 performance via the integration of MLLM-extracted features. Source code is available at: https://github.com/enoche/CM3.
PDF11August 8, 2025