ChatPaper.aiChatPaper

Extracción de Conceptos Monosemánticos Conscientes de la Interacción en Sistemas de Recomendación

Extracting Interaction-Aware Monosemantic Concepts in Recommender Systems

November 22, 2025
Autores: Dor Arviv, Yehonatan Elisha, Oren Barkan, Noam Koenigstein
cs.AI

Resumen

Presentamos un método para extraer neuronas monosémicas, definidas como dimensiones latentes que se alinean con conceptos coherentes e interpretables, a partir de los *embeddings* de usuarios e ítems en sistemas de recomendación. Nuestro enfoque emplea un Autoencoder Esparso (SAE) para revelar la estructura semántica dentro de las representaciones preentrenadas. A diferencia del trabajo en modelos de lenguaje, la monosemicidad en recomendación debe preservar las interacciones entre los *embeddings* separados de usuarios e ítems. Para lograrlo, introducimos un objetivo de entrenamiento consciente de la predicción que retropropaga el error a través de un recomendador congelado y alinea la estructura latente aprendida con las predicciones de afinidad usuario-ítem del modelo. Las neuronas resultantes capturan propiedades como el género, la popularidad y las tendencias temporales, y permiten operaciones de control *post hoc*, incluida la filtración dirigida y la promoción de contenido, sin modificar el modelo base. Nuestro método generaliza a través de diferentes modelos de recomendación y conjuntos de datos, proporcionando una herramienta práctica para una personalización interpretable y controlable. El código y los recursos de evaluación están disponibles en https://github.com/DeltaLabTLV/Monosemanticity4Rec.
English
We present a method for extracting monosemantic neurons, defined as latent dimensions that align with coherent and interpretable concepts, from user and item embeddings in recommender systems. Our approach employs a Sparse Autoencoder (SAE) to reveal semantic structure within pretrained representations. In contrast to work on language models, monosemanticity in recommendation must preserve the interactions between separate user and item embeddings. To achieve this, we introduce a prediction aware training objective that backpropagates through a frozen recommender and aligns the learned latent structure with the model's user-item affinity predictions. The resulting neurons capture properties such as genre, popularity, and temporal trends, and support post hoc control operations including targeted filtering and content promotion without modifying the base model. Our method generalizes across different recommendation models and datasets, providing a practical tool for interpretable and controllable personalization. Code and evaluation resources are available at https://github.com/DeltaLabTLV/Monosemanticity4Rec.
PDF22February 7, 2026