Modello Linguistico per Elementi nella Raccomandazione Conversazionale
Item-Language Model for Conversational Recommendation
June 5, 2024
Autori: Li Yang, Anushya Subbiah, Hardik Patel, Judith Yue Li, Yanwei Song, Reza Mirghaderi, Vikram Aggarwal
cs.AI
Abstract
I modelli linguistici su larga scala (LLM) hanno ottenuto un enorme successo in compiti come la comprensione di dialoghi complessi, il ragionamento e la codifica grazie alle loro capacità emergenti. Queste capacità emergenti sono state estese con la multimodalità per includere funzionalità relative a immagini, audio e video. I sistemi di raccomandazione, d'altra parte, sono stati fondamentali per le esigenze di ricerca di informazioni e scoperta di elementi. Recentemente, ci sono stati tentativi di applicare gli LLM per le raccomandazioni. Una difficoltà degli attuali tentativi è che l'LLM sottostante di solito non è addestrato sui dati del sistema di raccomandazione, che contengono principalmente segnali di interazione dell'utente e spesso non sono pubblicamente disponibili. Un'altra difficoltà è che i segnali di interazione dell'utente spesso presentano un pattern diverso rispetto al testo in linguaggio naturale, e attualmente non è chiaro se il setup di addestramento degli LLM possa apprendere conoscenze più complesse dai segnali di interazione rispetto ai metodi tradizionali dei sistemi di raccomandazione. Infine, è difficile addestrare più LLM per diversi casi d'uso e mantenere le capacità linguistiche e di ragionamento originali quando si apprende dai dati del sistema di raccomandazione. Per affrontare queste tre limitazioni, proponiamo un Modello Linguistico-Item (ILM), composto da un codificatore di item per produrre rappresentazioni di item allineate al testo che codificano i segnali di interazione dell'utente, e un LLM congelato che può comprendere tali rappresentazioni di item preservando le conoscenze pre-addestrate. Condividiamo esperimenti estesi che dimostrano sia l'importanza dell'allineamento linguistico sia della conoscenza delle interazioni dell'utente nel codificatore di item.
English
Large-language Models (LLMs) have been extremely successful at tasks like
complex dialogue understanding, reasoning and coding due to their emergent
abilities. These emergent abilities have been extended with multi-modality to
include image, audio, and video capabilities. Recommender systems, on the other
hand, have been critical for information seeking and item discovery needs.
Recently, there have been attempts to apply LLMs for recommendations. One
difficulty of current attempts is that the underlying LLM is usually not
trained on the recommender system data, which largely contains user interaction
signals and is often not publicly available. Another difficulty is user
interaction signals often have a different pattern from natural language text,
and it is currently unclear if the LLM training setup can learn more
non-trivial knowledge from interaction signals compared with traditional
recommender system methods. Finally, it is difficult to train multiple LLMs for
different use-cases, and to retain the original language and reasoning
abilities when learning from recommender system data. To address these three
limitations, we propose an Item-Language Model (ILM), which is composed of an
item encoder to produce text-aligned item representations that encode user
interaction signals, and a frozen LLM that can understand those item
representations with preserved pretrained knowledge. We conduct extensive
experiments which demonstrate both the importance of the language-alignment and
of user interaction knowledge in the item encoder.