Les modèles de langage comprennent-ils les préférences des utilisateurs ? Évaluation des modèles de langage sur la prédiction des évaluations utilisateur

Résumé

Les modèles de langage de grande taille (LLMs) ont démontré des capacités exceptionnelles à généraliser à de nouvelles tâches de manière zero-shot ou few-shot. Cependant, la mesure dans laquelle les LLMs peuvent comprendre les préférences des utilisateurs en fonction de leur comportement antérieur reste une question de recherche émergente et encore peu claire. Traditionnellement, le filtrage collaboratif (CF) a été la méthode la plus efficace pour ces tâches, reposant principalement sur un volume important de données de notation. En revanche, les LLMs nécessitent généralement beaucoup moins de données tout en conservant une connaissance exhaustive du monde pour chaque élément, comme les films ou les produits. Dans cet article, nous menons un examen approfondi à la fois du CF et des LLMs dans le cadre de la tâche classique de prédiction des notations des utilisateurs, qui consiste à prédire la notation d'un utilisateur pour un élément candidat en fonction de ses notations passées. Nous étudions divers LLMs de différentes tailles, allant de 250 millions à 540 milliards de paramètres, et évaluons leurs performances dans des scénarios zero-shot, few-shot et de fine-tuning. Nous effectuons une analyse approfondie pour comparer les LLMs aux méthodes de CF robustes, et constatons que les LLMs en mode zero-shot sont à la traîne par rapport aux modèles de recommandation traditionnels qui ont accès aux données d'interaction des utilisateurs, ce qui souligne l'importance des données d'interaction utilisateur. Cependant, grâce au fine-tuning, les LLMs atteignent des performances comparables, voire supérieures, avec seulement une petite fraction des données d'entraînement, démontrant ainsi leur potentiel en termes d'efficacité des données.

English

Large Language Models (LLMs) have demonstrated exceptional capabilities in generalizing to new tasks in a zero-shot or few-shot manner. However, the extent to which LLMs can comprehend user preferences based on their previous behavior remains an emerging and still unclear research question. Traditionally, Collaborative Filtering (CF) has been the most effective method for these tasks, predominantly relying on the extensive volume of rating data. In contrast, LLMs typically demand considerably less data while maintaining an exhaustive world knowledge about each item, such as movies or products. In this paper, we conduct a thorough examination of both CF and LLMs within the classic task of user rating prediction, which involves predicting a user's rating for a candidate item based on their past ratings. We investigate various LLMs in different sizes, ranging from 250M to 540B parameters and evaluate their performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct comprehensive analysis to compare between LLMs and strong CF methods, and find that zero-shot LLMs lag behind traditional recommender models that have the access to user interaction data, indicating the importance of user interaction data. However, through fine-tuning, LLMs achieve comparable or even better performance with only a small fraction of the training data, demonstrating their potential through data efficiency.

Les modèles de langage comprennent-ils les préférences des utilisateurs ? Évaluation des modèles de langage sur la prédiction des évaluations utilisateur

Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction

Résumé

Support