Sprachmodell für die Empfehlung im Gesprächsstil
Item-Language Model for Conversational Recommendation
June 5, 2024
Autoren: Li Yang, Anushya Subbiah, Hardik Patel, Judith Yue Li, Yanwei Song, Reza Mirghaderi, Vikram Aggarwal
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) waren aufgrund ihrer emergenten Fähigkeiten äußerst erfolgreich bei Aufgaben wie komplexem Dialogverständnis, Schlussfolgerungen und Codierung. Diese emergenten Fähigkeiten wurden durch Multimodalität erweitert, um Bild-, Audio- und Videofunktionen einzuschließen. Empfehlungssysteme hingegen waren entscheidend für Informationsbeschaffung und Artikelentdeckungsbedürfnisse. In letzter Zeit gab es Versuche, LLMs für Empfehlungen einzusetzen. Eine Schwierigkeit der aktuellen Versuche besteht darin, dass das zugrunde liegende LLM in der Regel nicht mit den Daten des Empfehlungssystems trainiert wird, die hauptsächlich Benutzerinteraktionssignale enthalten und oft nicht öffentlich verfügbar sind. Eine weitere Schwierigkeit besteht darin, dass Benutzerinteraktionssignale oft ein anderes Muster als natürlichsprachiger Text aufweisen, und es ist derzeit unklar, ob das LLM-Trainingssetup im Vergleich zu traditionellen Empfehlungssystemmethoden mehr nicht-triviales Wissen aus Interaktionssignalen lernen kann. Schließlich ist es schwierig, mehrere LLMs für verschiedene Anwendungsfälle zu trainieren und die ursprünglichen Sprach- und Schlussfolgerungsfähigkeiten beim Lernen aus den Daten des Empfehlungssystems beizubehalten. Um diese drei Einschränkungen anzugehen, schlagen wir ein Artikel-Sprachmodell (ILM) vor, das aus einem Artikelencoder besteht, um textausgerichtete Artikelrepräsentationen zu erzeugen, die Benutzerinteraktionssignale codieren, und einem eingefrorenen LLM, der diese Artikelrepräsentationen mit bewahrtem vorab trainiertem Wissen verstehen kann. Wir führen umfangreiche Experimente durch, die sowohl die Bedeutung der Sprachausrichtung als auch des Benutzerinteraktionswissens im Artikelencoder zeigen.
English
Large-language Models (LLMs) have been extremely successful at tasks like
complex dialogue understanding, reasoning and coding due to their emergent
abilities. These emergent abilities have been extended with multi-modality to
include image, audio, and video capabilities. Recommender systems, on the other
hand, have been critical for information seeking and item discovery needs.
Recently, there have been attempts to apply LLMs for recommendations. One
difficulty of current attempts is that the underlying LLM is usually not
trained on the recommender system data, which largely contains user interaction
signals and is often not publicly available. Another difficulty is user
interaction signals often have a different pattern from natural language text,
and it is currently unclear if the LLM training setup can learn more
non-trivial knowledge from interaction signals compared with traditional
recommender system methods. Finally, it is difficult to train multiple LLMs for
different use-cases, and to retain the original language and reasoning
abilities when learning from recommender system data. To address these three
limitations, we propose an Item-Language Model (ILM), which is composed of an
item encoder to produce text-aligned item representations that encode user
interaction signals, and a frozen LLM that can understand those item
representations with preserved pretrained knowledge. We conduct extensive
experiments which demonstrate both the importance of the language-alignment and
of user interaction knowledge in the item encoder.Summary
AI-Generated Summary