ChatPaper.aiChatPaper

Een overzicht van benchmarks voor grote taalmodellen

A Survey on Large Language Model Benchmarks

August 21, 2025
Auteurs: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
cs.AI

Samenvatting

In de afgelopen jaren, met de snelle ontwikkeling van de diepte en breedte van de mogelijkheden van grote taalmodel(len), zijn er steeds meer verschillende bijbehorende evaluatiebenchmarks ontstaan. Als een kwantitatief beoordelingsinstrument voor modelprestaties zijn benchmarks niet alleen een kernmiddel om modelmogelijkheden te meten, maar ook een sleutelelement in het begeleiden van de richting van modelontwikkeling en het bevorderen van technologische innovatie. Wij geven voor het eerst een systematisch overzicht van de huidige status en ontwikkeling van benchmarks voor grote taalmodel(len), waarbij we 283 representatieve benchmarks indelen in drie categorieën: algemene vaardigheden, domeinspecifiek en doelspecifiek. Benchmarks voor algemene vaardigheden beslaan aspecten zoals kernlinguïstiek, kennis en redeneren; domeinspecifieke benchmarks richten zich op gebieden zoals natuurwetenschappen, geesteswetenschappen en sociale wetenschappen, en technische technologie; doelspecifieke benchmarks letten op risico's, betrouwbaarheid, agentschappen, enz. Wij wijzen erop dat huidige benchmarks problemen hebben zoals opgeblazen scores veroorzaakt door datacontaminatie, oneerlijke evaluatie door culturele en taalkundige vooroordelen, en een gebrek aan evaluatie van procesgeloofwaardigheid en dynamische omgevingen, en bieden een referentieerbaar ontwerpparadigma voor toekomstige benchmarkinnovatie.
English
In recent years, with the rapid development of the depth and breadth of large language models' capabilities, various corresponding evaluation benchmarks have been emerging in increasing numbers. As a quantitative assessment tool for model performance, benchmarks are not only a core means to measure model capabilities but also a key element in guiding the direction of model development and promoting technological innovation. We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain-specific, and target-specific. General capability benchmarks cover aspects such as core linguistics, knowledge, and reasoning; domain-specific benchmarks focus on fields like natural sciences, humanities and social sciences, and engineering technology; target-specific benchmarks pay attention to risks, reliability, agents, etc. We point out that current benchmarks have problems such as inflated scores caused by data contamination, unfair evaluation due to cultural and linguistic biases, and lack of evaluation on process credibility and dynamic environments, and provide a referable design paradigm for future benchmark innovation.
PDF192August 22, 2025