ChatPaper.aiChatPaper

¿Comprenden los LLM las preferencias de los usuarios? Evaluación de los LLM en la predicción de calificaciones de usuarios.

Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction

May 10, 2023
Autores: Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales para generalizar a nuevas tareas en un enfoque de cero disparos (zero-shot) o pocos disparos (few-shot). Sin embargo, el grado en que los LLMs pueden comprender las preferencias del usuario basándose en su comportamiento previo sigue siendo una pregunta de investigación emergente y aún poco clara. Tradicionalmente, el Filtrado Colaborativo (CF, por sus siglas en inglés) ha sido el método más efectivo para estas tareas, dependiendo predominantemente del extenso volumen de datos de calificaciones. En contraste, los LLMs generalmente requieren considerablemente menos datos mientras mantienen un conocimiento exhaustivo del mundo sobre cada ítem, como películas o productos. En este artículo, realizamos un examen exhaustivo tanto del CF como de los LLMs dentro de la tarea clásica de predicción de calificaciones de usuarios, que implica predecir la calificación de un usuario para un ítem candidato basándose en sus calificaciones pasadas. Investigamos varios LLMs de diferentes tamaños, que van desde 250M hasta 540B parámetros, y evaluamos su rendimiento en escenarios de cero disparos, pocos disparos y ajuste fino (fine-tuning). Realizamos un análisis exhaustivo para comparar entre los LLMs y métodos fuertes de CF, y encontramos que los LLMs en cero disparos se quedan atrás en comparación con los modelos tradicionales de recomendación que tienen acceso a datos de interacción del usuario, lo que indica la importancia de los datos de interacción del usuario. Sin embargo, mediante el ajuste fino, los LLMs logran un rendimiento comparable o incluso mejor con solo una pequeña fracción de los datos de entrenamiento, demostrando su potencial a través de la eficiencia de datos.
English
Large Language Models (LLMs) have demonstrated exceptional capabilities in generalizing to new tasks in a zero-shot or few-shot manner. However, the extent to which LLMs can comprehend user preferences based on their previous behavior remains an emerging and still unclear research question. Traditionally, Collaborative Filtering (CF) has been the most effective method for these tasks, predominantly relying on the extensive volume of rating data. In contrast, LLMs typically demand considerably less data while maintaining an exhaustive world knowledge about each item, such as movies or products. In this paper, we conduct a thorough examination of both CF and LLMs within the classic task of user rating prediction, which involves predicting a user's rating for a candidate item based on their past ratings. We investigate various LLMs in different sizes, ranging from 250M to 540B parameters and evaluate their performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct comprehensive analysis to compare between LLMs and strong CF methods, and find that zero-shot LLMs lag behind traditional recommender models that have the access to user interaction data, indicating the importance of user interaction data. However, through fine-tuning, LLMs achieve comparable or even better performance with only a small fraction of the training data, demonstrating their potential through data efficiency.
PDF10December 15, 2024