Модель языка для рекомендации в разговорном формате.
Item-Language Model for Conversational Recommendation
June 5, 2024
Авторы: Li Yang, Anushya Subbiah, Hardik Patel, Judith Yue Li, Yanwei Song, Reza Mirghaderi, Vikram Aggarwal
cs.AI
Аннотация
Большие языковые модели (LLM) оказались чрезвычайно успешными в задачах, таких как понимание сложных диалогов, рассуждения и кодирование благодаря их внезапно возникшим способностям. Эти внезапно возникшие способности были расширены с помощью мульти-модальности, чтобы включить возможности работы с изображениями, аудио и видео. Системы рекомендаций, с другой стороны, имели критическое значение для поиска информации и обнаружения элементов. Недавно были предприняты попытки применить LLM для рекомендаций. Одной из сложностей текущих попыток является то, что базовая LLM обычно не обучена на данных системы рекомендаций, которые в значительной степени содержат сигналы взаимодействия пользователя и часто не являются общедоступными. Другой сложностью является то, что сигналы взаимодействия пользователя часто имеют другой шаблон по сравнению с естественным языковым текстом, и в настоящее время неясно, может ли установка обучения LLM извлекать более нетривиальные знания из сигналов взаимодействия по сравнению с традиционными методами систем рекомендаций. Наконец, сложно обучать несколько LLM для различных случаев использования и сохранять исходные языковые и рассуждательные способности при обучении на данных системы рекомендаций. Для решения этих трех ограничений мы предлагаем модель элемент-язык (ILM), которая состоит из кодера элементов для создания текстово-выровненных представлений элементов, кодирующих сигналы взаимодействия пользователя, и замороженной LLM, которая может понимать эти представления элементов с сохраненными предварительно обученными знаниями. Мы проводим обширные эксперименты, которые демонстрируют как важность выравнивания языка, так и знания о взаимодействии пользователя в кодере элементов.
English
Large-language Models (LLMs) have been extremely successful at tasks like
complex dialogue understanding, reasoning and coding due to their emergent
abilities. These emergent abilities have been extended with multi-modality to
include image, audio, and video capabilities. Recommender systems, on the other
hand, have been critical for information seeking and item discovery needs.
Recently, there have been attempts to apply LLMs for recommendations. One
difficulty of current attempts is that the underlying LLM is usually not
trained on the recommender system data, which largely contains user interaction
signals and is often not publicly available. Another difficulty is user
interaction signals often have a different pattern from natural language text,
and it is currently unclear if the LLM training setup can learn more
non-trivial knowledge from interaction signals compared with traditional
recommender system methods. Finally, it is difficult to train multiple LLMs for
different use-cases, and to retain the original language and reasoning
abilities when learning from recommender system data. To address these three
limitations, we propose an Item-Language Model (ILM), which is composed of an
item encoder to produce text-aligned item representations that encode user
interaction signals, and a frozen LLM that can understand those item
representations with preserved pretrained knowledge. We conduct extensive
experiments which demonstrate both the importance of the language-alignment and
of user interaction knowledge in the item encoder.Summary
AI-Generated Summary