ChatPaper.aiChatPaper

Eine Übersicht zur Evaluierung großer Sprachmodelle

A Survey on Evaluation of Large Language Models

July 6, 2023
Autoren: Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Kaijie Zhu, Hao Chen, Linyi Yang, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, Xing Xie
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) gewinnen sowohl in der Wissenschaft als auch in der Industrie zunehmend an Popularität, was auf ihre beispiellose Leistung in verschiedenen Anwendungen zurückzuführen ist. Da LLMs weiterhin eine entscheidende Rolle in der Forschung und im täglichen Gebrauch spielen, wird ihre Bewertung immer wichtiger, nicht nur auf der Aufgabenhöhe, sondern auch auf der gesellschaftlichen Ebene, um ihre potenziellen Risiken besser zu verstehen. In den letzten Jahren wurden erhebliche Anstrengungen unternommen, um LLMs aus verschiedenen Perspektiven zu untersuchen. Dieses Papier bietet einen umfassenden Überblick über diese Bewertungsmethoden für LLMs, wobei der Schwerpunkt auf drei Schlüsselaspekten liegt: was zu bewerten ist, wo zu bewerten ist und wie zu bewerten ist. Zunächst geben wir einen Überblick aus der Perspektive der Bewertungsaufgaben, einschließlich allgemeiner Aufgaben der natürlichen Sprachverarbeitung, des logischen Denkens, der medizinischen Anwendung, der Ethik, der Bildung, der Natur- und Sozialwissenschaften, der Anwendungen von Agenten und anderen Bereichen. Zweitens beantworten wir die Fragen „wo“ und „wie“, indem wir uns mit den Bewertungsmethoden und Benchmarks befassen, die als entscheidende Komponenten bei der Bewertung der Leistung von LLMs dienen. Anschließend fassen wir die Erfolgs- und Misserfolgsfälle von LLMs in verschiedenen Aufgaben zusammen. Schließlich beleuchten wir mehrere zukünftige Herausforderungen, die in der Bewertung von LLMs vor uns liegen. Unser Ziel ist es, wertvolle Einblicke für Forscher im Bereich der LLM-Bewertung zu bieten und damit die Entwicklung leistungsfähigerer LLMs zu unterstützen. Unser zentraler Punkt ist, dass die Bewertung als eine wesentliche Disziplin betrachtet werden sollte, um die Entwicklung von LLMs besser zu unterstützen. Wir pflegen kontinuierlich die zugehörigen Open-Source-Materialien unter: https://github.com/MLGroupJLU/LLM-eval-survey.
English
Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where' and `how' questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: https://github.com/MLGroupJLU/LLM-eval-survey.
PDF421December 15, 2024