Verstehen LLMs Benutzerpräferenzen? Bewertung von LLMs bei der Vorhersage von Benutzerbewertungen
Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction
May 10, 2023
Autoren: Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben außergewöhnliche Fähigkeiten bei der Generalisierung auf neue Aufgaben in einem Zero-Shot- oder Few-Shot-Szenario gezeigt. Das Ausmaß, in dem LLMs Benutzerpräferenzen auf der Grundlage ihres vorherigen Verhaltens verstehen können, bleibt jedoch eine aufstrebende und noch unklare Forschungsfrage. Traditionell war Collaborative Filtering (CF) die effektivste Methode für diese Aufgaben, die sich hauptsächlich auf die umfangreiche Menge an Bewertungsdaten stützte. Im Gegensatz dazu benötigen LLMs typischerweise erheblich weniger Daten, während sie gleichzeitig ein umfassendes Weltwissen über jeden Gegenstand, wie Filme oder Produkte, besitzen. In diesem Papier führen wir eine umfassende Untersuchung sowohl von CF als auch von LLMs im klassischen Aufgabenbereich der Benutzerbewertungsvorhersage durch, bei der es darum geht, die Bewertung eines Benutzers für einen Kandidatengegenstand auf der Grundlage seiner vergangenen Bewertungen vorherzusagen. Wir untersuchen verschiedene LLMs in unterschiedlichen Größen, die von 250M bis zu 540B Parametern reichen, und bewerten ihre Leistung in Zero-Shot-, Few-Shot- und Fine-Tuning-Szenarien. Wir führen eine umfassende Analyse durch, um LLMs mit starken CF-Methoden zu vergleichen, und stellen fest, dass Zero-Shot-LLMs hinter traditionellen Empfehlungsmodellen zurückbleiben, die Zugang zu Benutzerinteraktionsdaten haben, was die Bedeutung von Benutzerinteraktionsdaten unterstreicht. Durch Fine-Tuning erreichen LLMs jedoch vergleichbare oder sogar bessere Leistungen mit nur einem kleinen Bruchteil der Trainingsdaten, was ihr Potenzial durch Dateneffizienz demonstriert.
English
Large Language Models (LLMs) have demonstrated exceptional capabilities in
generalizing to new tasks in a zero-shot or few-shot manner. However, the
extent to which LLMs can comprehend user preferences based on their previous
behavior remains an emerging and still unclear research question.
Traditionally, Collaborative Filtering (CF) has been the most effective method
for these tasks, predominantly relying on the extensive volume of rating data.
In contrast, LLMs typically demand considerably less data while maintaining an
exhaustive world knowledge about each item, such as movies or products. In this
paper, we conduct a thorough examination of both CF and LLMs within the classic
task of user rating prediction, which involves predicting a user's rating for a
candidate item based on their past ratings. We investigate various LLMs in
different sizes, ranging from 250M to 540B parameters and evaluate their
performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct
comprehensive analysis to compare between LLMs and strong CF methods, and find
that zero-shot LLMs lag behind traditional recommender models that have the
access to user interaction data, indicating the importance of user interaction
data. However, through fine-tuning, LLMs achieve comparable or even better
performance with only a small fraction of the training data, demonstrating
their potential through data efficiency.