beeFormer: Aproximando a Lacuna Entre a Similaridade Semântica e de Interação em Sistemas de Recomendação
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems
September 16, 2024
Autores: Vojtěch Vančura, Pavel Kordík, Milan Straka
cs.AI
Resumo
Sistemas de recomendação frequentemente utilizam informações textuais para melhorar suas previsões, especialmente em cenários de recomendação a frio ou de zero-shot, nos quais abordagens tradicionais de filtragem colaborativa não podem ser usadas. Muitas abordagens para mineração de informações textuais para sistemas de recomendação foram propostas nos últimos anos, sendo os Transformers de sentenças o mais proeminente. No entanto, esses modelos são treinados para prever similaridade semântica sem utilizar dados de interação com padrões ocultos específicos para sistemas de recomendação. Neste artigo, propomos o beeFormer, um framework para treinar modelos de Transformers de sentenças com dados de interação. Demonstramos que nossos modelos treinados com o beeFormer podem transferir conhecimento entre conjuntos de dados, superando não apenas os Transformers de sentenças de similaridade semântica, mas também métodos tradicionais de filtragem colaborativa. Mostramos também que o treinamento em vários conjuntos de dados de diferentes domínios acumula conhecimento em um único modelo, desbloqueando a possibilidade de treinar modelos universais de Transformers de sentenças, agnósticos de domínio, para minerar representações textuais para sistemas de recomendação. Disponibilizamos o código-fonte, modelos treinados e detalhes adicionais para replicação de nossos experimentos em https://github.com/recombee/beeformer.
English
Recommender systems often use text-side information to improve their
predictions, especially in cold-start or zero-shot recommendation scenarios,
where traditional collaborative filtering approaches cannot be used. Many
approaches to text-mining side information for recommender systems have been
proposed over recent years, with sentence Transformers being the most prominent
one. However, these models are trained to predict semantic similarity without
utilizing interaction data with hidden patterns specific to recommender
systems. In this paper, we propose beeFormer, a framework for training sentence
Transformer models with interaction data. We demonstrate that our models
trained with beeFormer can transfer knowledge between datasets while
outperforming not only semantic similarity sentence Transformers but also
traditional collaborative filtering methods. We also show that training on
multiple datasets from different domains accumulates knowledge in a single
model, unlocking the possibility of training universal, domain-agnostic
sentence Transformer models to mine text representations for recommender
systems. We release the source code, trained models, and additional details
allowing replication of our experiments at
https://github.com/recombee/beeformer.Summary
AI-Generated Summary