Les modèles de langage comprennent-ils les préférences des utilisateurs ? Évaluation des modèles de langage sur la prédiction des évaluations utilisateur
Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction
May 10, 2023
Auteurs: Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont démontré des capacités exceptionnelles à généraliser à de nouvelles tâches de manière zero-shot ou few-shot. Cependant, la mesure dans laquelle les LLMs peuvent comprendre les préférences des utilisateurs en fonction de leur comportement antérieur reste une question de recherche émergente et encore peu claire. Traditionnellement, le filtrage collaboratif (CF) a été la méthode la plus efficace pour ces tâches, reposant principalement sur un volume important de données de notation. En revanche, les LLMs nécessitent généralement beaucoup moins de données tout en conservant une connaissance exhaustive du monde pour chaque élément, comme les films ou les produits. Dans cet article, nous menons un examen approfondi à la fois du CF et des LLMs dans le cadre de la tâche classique de prédiction des notations des utilisateurs, qui consiste à prédire la notation d'un utilisateur pour un élément candidat en fonction de ses notations passées. Nous étudions divers LLMs de différentes tailles, allant de 250 millions à 540 milliards de paramètres, et évaluons leurs performances dans des scénarios zero-shot, few-shot et de fine-tuning. Nous effectuons une analyse approfondie pour comparer les LLMs aux méthodes de CF robustes, et constatons que les LLMs en mode zero-shot sont à la traîne par rapport aux modèles de recommandation traditionnels qui ont accès aux données d'interaction des utilisateurs, ce qui souligne l'importance des données d'interaction utilisateur. Cependant, grâce au fine-tuning, les LLMs atteignent des performances comparables, voire supérieures, avec seulement une petite fraction des données d'entraînement, démontrant ainsi leur potentiel en termes d'efficacité des données.
English
Large Language Models (LLMs) have demonstrated exceptional capabilities in
generalizing to new tasks in a zero-shot or few-shot manner. However, the
extent to which LLMs can comprehend user preferences based on their previous
behavior remains an emerging and still unclear research question.
Traditionally, Collaborative Filtering (CF) has been the most effective method
for these tasks, predominantly relying on the extensive volume of rating data.
In contrast, LLMs typically demand considerably less data while maintaining an
exhaustive world knowledge about each item, such as movies or products. In this
paper, we conduct a thorough examination of both CF and LLMs within the classic
task of user rating prediction, which involves predicting a user's rating for a
candidate item based on their past ratings. We investigate various LLMs in
different sizes, ranging from 250M to 540B parameters and evaluate their
performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct
comprehensive analysis to compare between LLMs and strong CF methods, and find
that zero-shot LLMs lag behind traditional recommender models that have the
access to user interaction data, indicating the importance of user interaction
data. However, through fine-tuning, LLMs achieve comparable or even better
performance with only a small fraction of the training data, demonstrating
their potential through data efficiency.