Понимают ли языковые модели предпочтения пользователей? Оценка языковых моделей на основе предсказания пользовательских оценок

Аннотация

Крупные языковые модели (LLM) продемонстрировали исключительные способности к обобщению новых задач в условиях нулевого или малого количества примеров. Однако степень, в которой LLM могут понимать предпочтения пользователей на основе их предыдущего поведения, остается актуальным и недостаточно изученным вопросом. Традиционно метод коллаборативной фильтрации (CF) был наиболее эффективным подходом для таких задач, преимущественно опираясь на большой объем данных о рейтингах. В отличие от этого, LLM обычно требуют значительно меньше данных, сохраняя при этом исчерпывающие знания о каждом объекте, таком как фильмы или товары. В данной работе мы проводим тщательное исследование как CF, так и LLM в рамках классической задачи предсказания пользовательских рейтингов, которая заключается в прогнозировании оценки пользователя для кандидатного объекта на основе его прошлых оценок. Мы исследуем различные LLM с разным количеством параметров, от 250 миллионов до 540 миллиардов, и оцениваем их производительность в условиях нулевого, малого количества примеров и тонкой настройки. Мы проводим всесторонний анализ для сравнения LLM с сильными методами CF и обнаруживаем, что LLM в условиях нулевого количества примеров отстают от традиционных моделей рекомендательных систем, имеющих доступ к данным о взаимодействии пользователей, что подчеркивает важность таких данных. Однако с помощью тонкой настройки LLM достигают сопоставимой или даже лучшей производительности, используя лишь небольшую часть обучающих данных, демонстрируя свой потенциал через эффективность использования данных.

English

Large Language Models (LLMs) have demonstrated exceptional capabilities in generalizing to new tasks in a zero-shot or few-shot manner. However, the extent to which LLMs can comprehend user preferences based on their previous behavior remains an emerging and still unclear research question. Traditionally, Collaborative Filtering (CF) has been the most effective method for these tasks, predominantly relying on the extensive volume of rating data. In contrast, LLMs typically demand considerably less data while maintaining an exhaustive world knowledge about each item, such as movies or products. In this paper, we conduct a thorough examination of both CF and LLMs within the classic task of user rating prediction, which involves predicting a user's rating for a candidate item based on their past ratings. We investigate various LLMs in different sizes, ranging from 250M to 540B parameters and evaluate their performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct comprehensive analysis to compare between LLMs and strong CF methods, and find that zero-shot LLMs lag behind traditional recommender models that have the access to user interaction data, indicating the importance of user interaction data. However, through fine-tuning, LLMs achieve comparable or even better performance with only a small fraction of the training data, demonstrating their potential through data efficiency.

Понимают ли языковые модели предпочтения пользователей? Оценка языковых моделей на основе предсказания пользовательских оценок

Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction

Аннотация

Support