ChatPaper.aiChatPaper

Eine Übersicht über Benchmarking-Verfahren für große Sprachmodelle

A Survey on Large Language Model Benchmarks

August 21, 2025
papers.authors: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
cs.AI

papers.abstract

In den letzten Jahren hat sich die Tiefe und Breite der Fähigkeiten großer Sprachmodelle rasant entwickelt, und entsprechend sind immer mehr Evaluierungsbenchmarks entstanden. Als quantitatives Bewertungswerkzeug für die Modellleistung sind Benchmarks nicht nur ein zentrales Mittel zur Messung der Modellfähigkeiten, sondern auch ein Schlüsselelement, um die Richtung der Modellentwicklung zu steuern und technologische Innovationen voranzutreiben. Wir geben erstmals einen systematischen Überblick über den aktuellen Stand und die Entwicklung von Benchmarks für große Sprachmodelle und kategorisieren 283 repräsentative Benchmarks in drei Kategorien: allgemeine Fähigkeiten, domänenspezifische und zielgerichtete Benchmarks. Benchmarks für allgemeine Fähigkeiten decken Aspekte wie Kernlinguistik, Wissen und logisches Denken ab; domänenspezifische Benchmarks konzentrieren sich auf Bereiche wie Naturwissenschaften, Geistes- und Sozialwissenschaften sowie Ingenieurtechnik; zielgerichtete Benchmarks befassen sich mit Risiken, Zuverlässigkeit, Agenten usw. Wir weisen darauf hin, dass aktuelle Benchmarks Probleme wie aufgeblähte Bewertungen aufgrund von Datenkontamination, unfaire Bewertungen durch kulturelle und sprachliche Verzerrungen sowie mangelnde Bewertung der Prozessglaubwürdigkeit und dynamischer Umgebungen aufweisen, und liefern ein nachahmenswertes Designparadigma für zukünftige Benchmark-Innovationen.
English
In recent years, with the rapid development of the depth and breadth of large language models' capabilities, various corresponding evaluation benchmarks have been emerging in increasing numbers. As a quantitative assessment tool for model performance, benchmarks are not only a core means to measure model capabilities but also a key element in guiding the direction of model development and promoting technological innovation. We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain-specific, and target-specific. General capability benchmarks cover aspects such as core linguistics, knowledge, and reasoning; domain-specific benchmarks focus on fields like natural sciences, humanities and social sciences, and engineering technology; target-specific benchmarks pay attention to risks, reliability, agents, etc. We point out that current benchmarks have problems such as inflated scores caused by data contamination, unfair evaluation due to cultural and linguistic biases, and lack of evaluation on process credibility and dynamic environments, and provide a referable design paradigm for future benchmark innovation.
PDF172August 22, 2025