Item-Taalmodel voor Conversational Recommendation
Item-Language Model for Conversational Recommendation
June 5, 2024
Auteurs: Li Yang, Anushya Subbiah, Hardik Patel, Judith Yue Li, Yanwei Song, Reza Mirghaderi, Vikram Aggarwal
cs.AI
Samenvatting
Grote-taalmodellen (LLMs) zijn buitengewoon succesvol gebleken bij taken zoals complexe dialoogbegrip, redeneren en coderen vanwege hun emergente vaardigheden. Deze emergente vaardigheden zijn uitgebreid met multimodaliteit om beeld-, audio- en videomogelijkheden te omvatten. Aanbevelingssystemen zijn daarentegen van cruciaal belang geweest voor informatiezoekbehoeften en het ontdekken van items. Recentelijk zijn er pogingen gedaan om LLMs toe te passen voor aanbevelingen. Een moeilijkheid bij de huidige pogingen is dat het onderliggende LLM meestal niet is getraind op de gegevens van het aanbevelingssysteem, die grotendeels gebruikersinteractiesignalen bevatten en vaak niet publiekelijk beschikbaar zijn. Een andere moeilijkheid is dat gebruikersinteractiesignalen vaak een ander patroon hebben dan natuurlijke taaltekst, en het is momenteel onduidelijk of de LLM-trainingsopstelling meer niet-triviale kennis kan leren uit interactiesignalen in vergelijking met traditionele aanbevelingssysteemmethoden. Ten slotte is het moeilijk om meerdere LLMs te trainen voor verschillende use-cases, en om de oorspronkelijke taal- en redeneervaardigheden te behouden bij het leren van aanbevelingssysteemgegevens. Om deze drie beperkingen aan te pakken, stellen we een Item-Taalmodel (ILM) voor, dat bestaat uit een item-encoder om tekst-uitgelijnde itemrepresentaties te produceren die gebruikersinteractiesignalen coderen, en een bevroren LLM die deze itemrepresentaties kan begrijpen met behoud van vooraf getrainde kennis. We voeren uitgebreide experimenten uit die zowel het belang van de taal-uitlijning als van gebruikersinteractiekennis in de item-encoder aantonen.
English
Large-language Models (LLMs) have been extremely successful at tasks like
complex dialogue understanding, reasoning and coding due to their emergent
abilities. These emergent abilities have been extended with multi-modality to
include image, audio, and video capabilities. Recommender systems, on the other
hand, have been critical for information seeking and item discovery needs.
Recently, there have been attempts to apply LLMs for recommendations. One
difficulty of current attempts is that the underlying LLM is usually not
trained on the recommender system data, which largely contains user interaction
signals and is often not publicly available. Another difficulty is user
interaction signals often have a different pattern from natural language text,
and it is currently unclear if the LLM training setup can learn more
non-trivial knowledge from interaction signals compared with traditional
recommender system methods. Finally, it is difficult to train multiple LLMs for
different use-cases, and to retain the original language and reasoning
abilities when learning from recommender system data. To address these three
limitations, we propose an Item-Language Model (ILM), which is composed of an
item encoder to produce text-aligned item representations that encode user
interaction signals, and a frozen LLM that can understand those item
representations with preserved pretrained knowledge. We conduct extensive
experiments which demonstrate both the importance of the language-alignment and
of user interaction knowledge in the item encoder.