Modelo de Linguagem de Itens para Recomendação Conversacional
Item-Language Model for Conversational Recommendation
June 5, 2024
Autores: Li Yang, Anushya Subbiah, Hardik Patel, Judith Yue Li, Yanwei Song, Reza Mirghaderi, Vikram Aggarwal
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm obtido grande sucesso em tarefas como compreensão de diálogos complexos, raciocínio e codificação devido às suas habilidades emergentes. Essas habilidades emergentes foram estendidas com multimodalidade para incluir capacidades de processamento de imagens, áudio e vídeo. Por outro lado, os sistemas de recomendação têm sido essenciais para atender às necessidades de busca de informações e descoberta de itens. Recentemente, houve tentativas de aplicar LLMs para recomendações. Uma dificuldade dessas tentativas é que o LLM subjacente geralmente não é treinado com dados de sistemas de recomendação, que contêm principalmente sinais de interação do usuário e muitas vezes não estão disponíveis publicamente. Outra dificuldade é que os sinais de interação do usuário frequentemente apresentam padrões diferentes dos textos em linguagem natural, e atualmente não está claro se o treinamento de LLMs pode aprender conhecimentos mais complexos a partir desses sinais em comparação com métodos tradicionais de sistemas de recomendação. Por fim, é difícil treinar múltiplos LLMs para diferentes casos de uso e manter as habilidades originais de linguagem e raciocínio ao aprender com dados de sistemas de recomendação. Para abordar essas três limitações, propomos um Modelo de Linguagem de Itens (ILM, na sigla em inglês), que é composto por um codificador de itens para produzir representações de itens alinhadas com texto que codificam sinais de interação do usuário, e um LLM congelado que pode compreender essas representações de itens com o conhecimento pré-treinado preservado. Realizamos experimentos extensivos que demonstram tanto a importância do alinhamento com a linguagem quanto do conhecimento de interação do usuário no codificador de itens.
English
Large-language Models (LLMs) have been extremely successful at tasks like
complex dialogue understanding, reasoning and coding due to their emergent
abilities. These emergent abilities have been extended with multi-modality to
include image, audio, and video capabilities. Recommender systems, on the other
hand, have been critical for information seeking and item discovery needs.
Recently, there have been attempts to apply LLMs for recommendations. One
difficulty of current attempts is that the underlying LLM is usually not
trained on the recommender system data, which largely contains user interaction
signals and is often not publicly available. Another difficulty is user
interaction signals often have a different pattern from natural language text,
and it is currently unclear if the LLM training setup can learn more
non-trivial knowledge from interaction signals compared with traditional
recommender system methods. Finally, it is difficult to train multiple LLMs for
different use-cases, and to retain the original language and reasoning
abilities when learning from recommender system data. To address these three
limitations, we propose an Item-Language Model (ILM), which is composed of an
item encoder to produce text-aligned item representations that encode user
interaction signals, and a frozen LLM that can understand those item
representations with preserved pretrained knowledge. We conduct extensive
experiments which demonstrate both the importance of the language-alignment and
of user interaction knowledge in the item encoder.