Понимают ли языковые модели предпочтения пользователей? Оценка языковых моделей на основе предсказания пользовательских оценок
Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction
May 10, 2023
Авторы: Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали исключительные способности к обобщению новых задач в условиях нулевого или малого количества примеров. Однако степень, в которой LLM могут понимать предпочтения пользователей на основе их предыдущего поведения, остается актуальным и недостаточно изученным вопросом. Традиционно метод коллаборативной фильтрации (CF) был наиболее эффективным подходом для таких задач, преимущественно опираясь на большой объем данных о рейтингах. В отличие от этого, LLM обычно требуют значительно меньше данных, сохраняя при этом исчерпывающие знания о каждом объекте, таком как фильмы или товары. В данной работе мы проводим тщательное исследование как CF, так и LLM в рамках классической задачи предсказания пользовательских рейтингов, которая заключается в прогнозировании оценки пользователя для кандидатного объекта на основе его прошлых оценок. Мы исследуем различные LLM с разным количеством параметров, от 250 миллионов до 540 миллиардов, и оцениваем их производительность в условиях нулевого, малого количества примеров и тонкой настройки. Мы проводим всесторонний анализ для сравнения LLM с сильными методами CF и обнаруживаем, что LLM в условиях нулевого количества примеров отстают от традиционных моделей рекомендательных систем, имеющих доступ к данным о взаимодействии пользователей, что подчеркивает важность таких данных. Однако с помощью тонкой настройки LLM достигают сопоставимой или даже лучшей производительности, используя лишь небольшую часть обучающих данных, демонстрируя свой потенциал через эффективность использования данных.
English
Large Language Models (LLMs) have demonstrated exceptional capabilities in
generalizing to new tasks in a zero-shot or few-shot manner. However, the
extent to which LLMs can comprehend user preferences based on their previous
behavior remains an emerging and still unclear research question.
Traditionally, Collaborative Filtering (CF) has been the most effective method
for these tasks, predominantly relying on the extensive volume of rating data.
In contrast, LLMs typically demand considerably less data while maintaining an
exhaustive world knowledge about each item, such as movies or products. In this
paper, we conduct a thorough examination of both CF and LLMs within the classic
task of user rating prediction, which involves predicting a user's rating for a
candidate item based on their past ratings. We investigate various LLMs in
different sizes, ranging from 250M to 540B parameters and evaluate their
performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct
comprehensive analysis to compare between LLMs and strong CF methods, and find
that zero-shot LLMs lag behind traditional recommender models that have the
access to user interaction data, indicating the importance of user interaction
data. However, through fine-tuning, LLMs achieve comparable or even better
performance with only a small fraction of the training data, demonstrating
their potential through data efficiency.