ChatPaper.aiChatPaper

Het Extraheren van Interactiebewuste Monosemantische Concepten in Aanbevelingssystemen

Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems

November 22, 2025
Auteurs: Dor Arviv, Yehonatan Elisha, Oren Barkan, Noam Koenigstein
cs.AI

Samenvatting

Wij presenteren een methode voor het extraheren van monosemantische neuronen, gedefinieerd als latente dimensies die overeenkomen met coherente en interpreteerbare concepten, uit gebruikers- en item-embeddings in aanbevelingssystemen. Onze aanpak gebruikt een Sparse Autoencoder (SAE) om de semantische structuur binnen voorgetrainde representaties bloot te leggen. In tegenstelling tot werk met taalmodellen moet monosemantie bij aanbevelingen de interacties tussen afzonderlijke gebruikers- en item-embeddings behouden. Om dit te bereiken, introduceren we een prediction aware trainingsdoel dat terugpropagatie door een bevroren aanbevelingssysteem uitvoert en de geleerde latente structuur afstemt op de voorspellingen van gebruikers-itemaffiniteit van het model. De resulterende neuronen vangen eigenschappen zoals genre, populariteit en temporele trends vast en ondersteunen post hoc controle-operaties, waaronder gerichte filtering en contentpromotie, zonder het basismodel aan te passen. Onze methode generaliseert over verschillende aanbevelingsmodellen en datasets, en biedt een praktisch hulpmiddel voor interpreteerbare en controleerbare personalisatie. Code en evaluatieresources zijn beschikbaar op https://github.com/DeltaLabTLV/Monosemanticity4Rec.
English
We present a method for extracting monosemantic neurons, defined as latent dimensions that align with coherent and interpretable concepts, from user and item embeddings in recommender systems. Our approach employs a Sparse Autoencoder (SAE) to reveal semantic structure within pretrained representations. In contrast to work on language models, monosemanticity in recommendation must preserve the interactions between separate user and item embeddings. To achieve this, we introduce a prediction aware training objective that backpropagates through a frozen recommender and aligns the learned latent structure with the model's user-item affinity predictions. The resulting neurons capture properties such as genre, popularity, and temporal trends, and support post hoc control operations including targeted filtering and content promotion without modifying the base model. Our method generalizes across different recommendation models and datasets, providing a practical tool for interpretable and controllable personalization. Code and evaluation resources are available at https://github.com/DeltaLabTLV/Monosemanticity4Rec.
PDF12December 3, 2025