Begrijpen LLM's gebruikersvoorkeuren? Evaluatie van LLM's op het voorspellen van gebruikersbeoordelingen
Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction
May 10, 2023
Auteurs: Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben uitzonderlijke capaciteiten getoond in het generaliseren naar nieuwe taken op een zero-shot of few-shot manier. Echter, de mate waarin LLMs gebruikersvoorkeuren kunnen begrijpen op basis van hun eerdere gedrag blijft een opkomende en nog onduidelijke onderzoeksvraag. Traditioneel is Collaborative Filtering (CF) de meest effectieve methode geweest voor deze taken, waarbij voornamelijk wordt vertrouwd op de uitgebreide hoeveelheid beoordelingsgegevens. Daarentegen vereisen LLMs aanzienlijk minder gegevens terwijl ze een uitgebreide wereldkennis behouden over elk item, zoals films of producten. In dit artikel voeren we een grondig onderzoek uit naar zowel CF als LLMs binnen de klassieke taak van gebruikersbeoordelingsvoorspelling, waarbij het gaat om het voorspellen van de beoordeling van een gebruiker voor een kandidaat-item op basis van hun eerdere beoordelingen. We onderzoeken verschillende LLMs in verschillende groottes, variërend van 250M tot 540B parameters, en evalueren hun prestaties in zero-shot, few-shot en fine-tuning scenario's. We voeren een uitgebreide analyse uit om LLMs te vergelijken met sterke CF-methoden, en ontdekken dat zero-shot LLMs achterblijven bij traditionele aanbevelingsmodellen die toegang hebben tot gebruikersinteractiegegevens, wat het belang van gebruikersinteractiegegevens aangeeft. Echter, door fine-tuning bereiken LLMs vergelijkbare of zelfs betere prestaties met slechts een klein deel van de trainingsgegevens, wat hun potentieel aantoont door middel van data-efficiëntie.
English
Large Language Models (LLMs) have demonstrated exceptional capabilities in
generalizing to new tasks in a zero-shot or few-shot manner. However, the
extent to which LLMs can comprehend user preferences based on their previous
behavior remains an emerging and still unclear research question.
Traditionally, Collaborative Filtering (CF) has been the most effective method
for these tasks, predominantly relying on the extensive volume of rating data.
In contrast, LLMs typically demand considerably less data while maintaining an
exhaustive world knowledge about each item, such as movies or products. In this
paper, we conduct a thorough examination of both CF and LLMs within the classic
task of user rating prediction, which involves predicting a user's rating for a
candidate item based on their past ratings. We investigate various LLMs in
different sizes, ranging from 250M to 540B parameters and evaluate their
performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct
comprehensive analysis to compare between LLMs and strong CF methods, and find
that zero-shot LLMs lag behind traditional recommender models that have the
access to user interaction data, indicating the importance of user interaction
data. However, through fine-tuning, LLMs achieve comparable or even better
performance with only a small fraction of the training data, demonstrating
their potential through data efficiency.