Una Revisión sobre la Evaluación de Modelos de Lenguaje de Gran Escala

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están ganando una creciente popularidad tanto en el ámbito académico como en la industria, debido a su desempeño sin precedentes en diversas aplicaciones. A medida que los LLMs continúan desempeñando un papel vital tanto en la investigación como en el uso diario, su evaluación se vuelve cada vez más crítica, no solo a nivel de tareas, sino también a nivel social para comprender mejor sus riesgos potenciales. En los últimos años, se han realizado esfuerzos significativos para examinar los LLMs desde diversas perspectivas. Este artículo presenta una revisión exhaustiva de estos métodos de evaluación para LLMs, centrándose en tres dimensiones clave: qué evaluar, dónde evaluar y cómo evaluar. En primer lugar, ofrecemos una visión general desde la perspectiva de las tareas de evaluación, abarcando tareas generales de procesamiento del lenguaje natural, razonamiento, uso médico, ética, educación, ciencias naturales y sociales, aplicaciones de agentes y otras áreas. En segundo lugar, respondemos a las preguntas de "dónde" y "cómo" al profundizar en los métodos de evaluación y los puntos de referencia, que sirven como componentes cruciales para evaluar el rendimiento de los LLMs. Luego, resumimos los casos de éxito y fracaso de los LLMs en diferentes tareas. Finalmente, arrojamos luz sobre varios desafíos futuros que se presentan en la evaluación de LLMs. Nuestro objetivo es ofrecer ideas invaluables a los investigadores en el ámbito de la evaluación de LLMs, ayudando así al desarrollo de LLMs más competentes. Nuestro punto clave es que la evaluación debe tratarse como una disciplina esencial para ayudar mejor al desarrollo de los LLMs. Mantenemos constantemente los materiales de código abierto relacionados en: https://github.com/MLGroupJLU/LLM-eval-survey.

English

Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where' and `how' questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: https://github.com/MLGroupJLU/LLM-eval-survey.

Una Revisión sobre la Evaluación de Modelos de Lenguaje de Gran Escala

A Survey on Evaluation of Large Language Models

Resumen

Support