I LLM comprendono le preferenze degli utenti? Valutazione dei LLM nella previsione delle valutazioni degli utenti
Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction
May 10, 2023
Autori: Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità eccezionali nel generalizzare nuovi compiti in modalità zero-shot o few-shot. Tuttavia, la misura in cui gli LLM possono comprendere le preferenze degli utenti in base al loro comportamento precedente rimane una questione di ricerca emergente e ancora poco chiara. Tradizionalmente, il filtraggio collaborativo (CF) è stato il metodo più efficace per questi compiti, basandosi principalmente sul volume esteso di dati di valutazione. Al contrario, gli LLM richiedono generalmente una quantità di dati considerevolmente inferiore, pur mantenendo una conoscenza approfondita del mondo su ciascun elemento, come film o prodotti. In questo articolo, conduciamo un esame approfondito sia del CF che degli LLM all'interno del classico compito di previsione delle valutazioni degli utenti, che consiste nel prevedere la valutazione di un utente per un elemento candidato in base alle sue valutazioni passate. Investigiamo vari LLM di dimensioni diverse, che vanno da 250 milioni a 540 miliardi di parametri, e valutiamo le loro prestazioni in scenari zero-shot, few-shot e di fine-tuning. Eseguiamo un'analisi completa per confrontare gli LLM con metodi CF robusti e scopriamo che gli LLM in modalità zero-shot rimangono indietro rispetto ai modelli di raccomandazione tradizionali che hanno accesso ai dati di interazione degli utenti, evidenziando l'importanza dei dati di interazione degli utenti. Tuttavia, attraverso il fine-tuning, gli LLM raggiungono prestazioni comparabili o addirittura migliori con solo una piccola frazione dei dati di addestramento, dimostrando il loro potenziale attraverso l'efficienza dei dati.
English
Large Language Models (LLMs) have demonstrated exceptional capabilities in
generalizing to new tasks in a zero-shot or few-shot manner. However, the
extent to which LLMs can comprehend user preferences based on their previous
behavior remains an emerging and still unclear research question.
Traditionally, Collaborative Filtering (CF) has been the most effective method
for these tasks, predominantly relying on the extensive volume of rating data.
In contrast, LLMs typically demand considerably less data while maintaining an
exhaustive world knowledge about each item, such as movies or products. In this
paper, we conduct a thorough examination of both CF and LLMs within the classic
task of user rating prediction, which involves predicting a user's rating for a
candidate item based on their past ratings. We investigate various LLMs in
different sizes, ranging from 250M to 540B parameters and evaluate their
performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct
comprehensive analysis to compare between LLMs and strong CF methods, and find
that zero-shot LLMs lag behind traditional recommender models that have the
access to user interaction data, indicating the importance of user interaction
data. However, through fine-tuning, LLMs achieve comparable or even better
performance with only a small fraction of the training data, demonstrating
their potential through data efficiency.