Os LLMs Compreendem as Preferências dos Usuários? Avaliando LLMs na Predição de Avaliações de Usuários
Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction
May 10, 2023
Autores: Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades excepcionais em generalizar para novas tarefas de maneira zero-shot ou few-shot. No entanto, até que ponto os LLMs podem compreender as preferências do usuário com base em seu comportamento anterior permanece uma questão de pesquisa emergente e ainda pouco clara. Tradicionalmente, a Filtragem Colaborativa (CF) tem sido o método mais eficaz para essas tarefas, dependendo predominantemente do extenso volume de dados de avaliação. Em contraste, os LLMs geralmente exigem consideravelmente menos dados, mantendo um conhecimento abrangente sobre cada item, como filmes ou produtos. Neste artigo, realizamos um exame minucioso tanto da CF quanto dos LLMs dentro da tarefa clássica de previsão de avaliação do usuário, que envolve prever a avaliação de um usuário para um item candidato com base em suas avaliações anteriores. Investigamos vários LLMs de diferentes tamanhos, variando de 250M a 540B parâmetros, e avaliamos seu desempenho em cenários zero-shot, few-shot e de fine-tuning. Realizamos uma análise abrangente para comparar os LLMs com métodos robustos de CF e descobrimos que os LLMs zero-shot ficam atrás dos modelos tradicionais de recomendação que têm acesso a dados de interação do usuário, indicando a importância dos dados de interação do usuário. No entanto, por meio do fine-tuning, os LLMs alcançam desempenho comparável ou até superior com apenas uma pequena fração dos dados de treinamento, demonstrando seu potencial por meio da eficiência de dados.
English
Large Language Models (LLMs) have demonstrated exceptional capabilities in
generalizing to new tasks in a zero-shot or few-shot manner. However, the
extent to which LLMs can comprehend user preferences based on their previous
behavior remains an emerging and still unclear research question.
Traditionally, Collaborative Filtering (CF) has been the most effective method
for these tasks, predominantly relying on the extensive volume of rating data.
In contrast, LLMs typically demand considerably less data while maintaining an
exhaustive world knowledge about each item, such as movies or products. In this
paper, we conduct a thorough examination of both CF and LLMs within the classic
task of user rating prediction, which involves predicting a user's rating for a
candidate item based on their past ratings. We investigate various LLMs in
different sizes, ranging from 250M to 540B parameters and evaluate their
performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct
comprehensive analysis to compare between LLMs and strong CF methods, and find
that zero-shot LLMs lag behind traditional recommender models that have the
access to user interaction data, indicating the importance of user interaction
data. However, through fine-tuning, LLMs achieve comparable or even better
performance with only a small fraction of the training data, demonstrating
their potential through data efficiency.