추천 시스템에서 상호작용 인식 단의미 개념 추출
Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems
November 22, 2025
저자: Dor Arviv, Yehonatan Elisha, Oren Barkan, Noam Koenigstein
cs.AI
초록
사용자 및 아이템 임베딩에서 단의성 뉴런을 추출하는 방법을 제안한다. 단의성 뉴런은 일관되고 해석 가능한 개념과 정렬되는 잠재 차원으로 정의된다. 우리의 접근법은 사전 학습된 표현 내의 의미론적 구조를 드러내기 위해 Sparse Autoencoder(SAE)를 활용한다. 언어 모델 연구와 달리, 추천 시스템에서의 단의성은 별도의 사용자와 아이템 임베딩 간 상호작용을 보존해야 한다. 이를 위해 고정된 추천 모델을 통해 역전파를 수행하고 학습된 잠재 구조를 모델의 사용자-아이템 선호도 예측과 정렬하는 예측 인식 훈련 목표를 도입한다. 그 결과 생성된 뉴런은 장르, 인기도, 시간적 트렌드 등의 속성을 포착하며, 기본 모델을 수정하지 않고도 타겟 필터링 및 콘텐츠 프로모션을 포함한 사후 제어 작업을 지원한다. 우리의 방법은 다양한 추천 모델과 데이터셋에 일반화되어 해석 가능하고 제어 가능한 개인화를 위한 실용적인 도구를 제공한다. 코드 및 평가 리소스는 https://github.com/DeltaLabTLV/Monosemanticity4Rec에서 확인할 수 있다.
English
We present a method for extracting monosemantic neurons, defined as latent dimensions that align with coherent and interpretable concepts, from user and item embeddings in recommender systems. Our approach employs a Sparse Autoencoder (SAE) to reveal semantic structure within pretrained representations. In contrast to work on language models, monosemanticity in recommendation must preserve the interactions between separate user and item embeddings. To achieve this, we introduce a prediction aware training objective that backpropagates through a frozen recommender and aligns the learned latent structure with the model's user-item affinity predictions. The resulting neurons capture properties such as genre, popularity, and temporal trends, and support post hoc control operations including targeted filtering and content promotion without modifying the base model. Our method generalizes across different recommendation models and datasets, providing a practical tool for interpretable and controllable personalization. Code and evaluation resources are available at https://github.com/DeltaLabTLV/Monosemanticity4Rec.