Una Revisión sobre la Evaluación de Modelos de Lenguaje de Gran Escala
A Survey on Evaluation of Large Language Models
July 6, 2023
Autores: Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Kaijie Zhu, Hao Chen, Linyi Yang, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, Xing Xie
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están ganando una creciente popularidad tanto en el ámbito académico como en la industria, debido a su desempeño sin precedentes en diversas aplicaciones. A medida que los LLMs continúan desempeñando un papel vital tanto en la investigación como en el uso diario, su evaluación se vuelve cada vez más crítica, no solo a nivel de tareas, sino también a nivel social para comprender mejor sus riesgos potenciales. En los últimos años, se han realizado esfuerzos significativos para examinar los LLMs desde diversas perspectivas. Este artículo presenta una revisión exhaustiva de estos métodos de evaluación para LLMs, centrándose en tres dimensiones clave: qué evaluar, dónde evaluar y cómo evaluar. En primer lugar, ofrecemos una visión general desde la perspectiva de las tareas de evaluación, abarcando tareas generales de procesamiento del lenguaje natural, razonamiento, uso médico, ética, educación, ciencias naturales y sociales, aplicaciones de agentes y otras áreas. En segundo lugar, respondemos a las preguntas de "dónde" y "cómo" al profundizar en los métodos de evaluación y los puntos de referencia, que sirven como componentes cruciales para evaluar el rendimiento de los LLMs. Luego, resumimos los casos de éxito y fracaso de los LLMs en diferentes tareas. Finalmente, arrojamos luz sobre varios desafíos futuros que se presentan en la evaluación de LLMs. Nuestro objetivo es ofrecer ideas invaluables a los investigadores en el ámbito de la evaluación de LLMs, ayudando así al desarrollo de LLMs más competentes. Nuestro punto clave es que la evaluación debe tratarse como una disciplina esencial para ayudar mejor al desarrollo de los LLMs. Mantenemos constantemente los materiales de código abierto relacionados en: https://github.com/MLGroupJLU/LLM-eval-survey.
English
Large language models (LLMs) are gaining increasing popularity in both
academia and industry, owing to their unprecedented performance in various
applications. As LLMs continue to play a vital role in both research and daily
use, their evaluation becomes increasingly critical, not only at the task
level, but also at the society level for better understanding of their
potential risks. Over the past years, significant efforts have been made to
examine LLMs from various perspectives. This paper presents a comprehensive
review of these evaluation methods for LLMs, focusing on three key dimensions:
what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide
an overview from the perspective of evaluation tasks, encompassing general
natural language processing tasks, reasoning, medical usage, ethics,
educations, natural and social sciences, agent applications, and other areas.
Secondly, we answer the `where' and `how' questions by diving into the
evaluation methods and benchmarks, which serve as crucial components in
assessing performance of LLMs. Then, we summarize the success and failure cases
of LLMs in different tasks. Finally, we shed light on several future challenges
that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to
researchers in the realm of LLMs evaluation, thereby aiding the development of
more proficient LLMs. Our key point is that evaluation should be treated as an
essential discipline to better assist the development of LLMs. We consistently
maintain the related open-source materials at:
https://github.com/MLGroupJLU/LLM-eval-survey.