Modelo de Linguagem de Itens para Recomendação Conversacional

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm obtido grande sucesso em tarefas como compreensão de diálogos complexos, raciocínio e codificação devido às suas habilidades emergentes. Essas habilidades emergentes foram estendidas com multimodalidade para incluir capacidades de processamento de imagens, áudio e vídeo. Por outro lado, os sistemas de recomendação têm sido essenciais para atender às necessidades de busca de informações e descoberta de itens. Recentemente, houve tentativas de aplicar LLMs para recomendações. Uma dificuldade dessas tentativas é que o LLM subjacente geralmente não é treinado com dados de sistemas de recomendação, que contêm principalmente sinais de interação do usuário e muitas vezes não estão disponíveis publicamente. Outra dificuldade é que os sinais de interação do usuário frequentemente apresentam padrões diferentes dos textos em linguagem natural, e atualmente não está claro se o treinamento de LLMs pode aprender conhecimentos mais complexos a partir desses sinais em comparação com métodos tradicionais de sistemas de recomendação. Por fim, é difícil treinar múltiplos LLMs para diferentes casos de uso e manter as habilidades originais de linguagem e raciocínio ao aprender com dados de sistemas de recomendação. Para abordar essas três limitações, propomos um Modelo de Linguagem de Itens (ILM, na sigla em inglês), que é composto por um codificador de itens para produzir representações de itens alinhadas com texto que codificam sinais de interação do usuário, e um LLM congelado que pode compreender essas representações de itens com o conhecimento pré-treinado preservado. Realizamos experimentos extensivos que demonstram tanto a importância do alinhamento com a linguagem quanto do conhecimento de interação do usuário no codificador de itens.

English

Large-language Models (LLMs) have been extremely successful at tasks like complex dialogue understanding, reasoning and coding due to their emergent abilities. These emergent abilities have been extended with multi-modality to include image, audio, and video capabilities. Recommender systems, on the other hand, have been critical for information seeking and item discovery needs. Recently, there have been attempts to apply LLMs for recommendations. One difficulty of current attempts is that the underlying LLM is usually not trained on the recommender system data, which largely contains user interaction signals and is often not publicly available. Another difficulty is user interaction signals often have a different pattern from natural language text, and it is currently unclear if the LLM training setup can learn more non-trivial knowledge from interaction signals compared with traditional recommender system methods. Finally, it is difficult to train multiple LLMs for different use-cases, and to retain the original language and reasoning abilities when learning from recommender system data. To address these three limitations, we propose an Item-Language Model (ILM), which is composed of an item encoder to produce text-aligned item representations that encode user interaction signals, and a frozen LLM that can understand those item representations with preserved pretrained knowledge. We conduct extensive experiments which demonstrate both the importance of the language-alignment and of user interaction knowledge in the item encoder.

Modelo de Linguagem de Itens para Recomendação Conversacional

Item-Language Model for Conversational Recommendation

Resumo

Support