Uma Análise sobre Benchmarks de Modelos de Linguagem de Grande Escala
A Survey on Large Language Model Benchmarks
August 21, 2025
Autores: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
cs.AI
Resumo
Nos últimos anos, com o rápido desenvolvimento da profundidade e amplitude das capacidades dos grandes modelos de linguagem, diversos benchmarks de avaliação correspondentes têm surgido em número crescente. Como ferramenta de avaliação quantitativa do desempenho dos modelos, os benchmarks não são apenas um meio central para medir as capacidades dos modelos, mas também um elemento-chave para orientar a direção do desenvolvimento dos modelos e promover a inovação tecnológica. Revisamos sistematicamente, pela primeira vez, o status atual e o desenvolvimento dos benchmarks para grandes modelos de linguagem, categorizando 283 benchmarks representativos em três categorias: capacidades gerais, específicos de domínio e específicos de objetivo. Os benchmarks de capacidades gerais abrangem aspectos como linguística central, conhecimento e raciocínio; os benchmarks específicos de domínio focam em áreas como ciências naturais, humanidades e ciências sociais, e tecnologia de engenharia; os benchmarks específicos de objetivo abordam riscos, confiabilidade, agentes, entre outros. Apontamos que os benchmarks atuais enfrentam problemas como pontuações infladas devido à contaminação de dados, avaliação injusta causada por vieses culturais e linguísticos, e a falta de avaliação sobre a credibilidade do processo e ambientes dinâmicos, e fornecemos um paradigma de design referenciável para a inovação futura de benchmarks.
English
In recent years, with the rapid development of the depth and breadth of large
language models' capabilities, various corresponding evaluation benchmarks have
been emerging in increasing numbers. As a quantitative assessment tool for
model performance, benchmarks are not only a core means to measure model
capabilities but also a key element in guiding the direction of model
development and promoting technological innovation. We systematically review
the current status and development of large language model benchmarks for the
first time, categorizing 283 representative benchmarks into three categories:
general capabilities, domain-specific, and target-specific. General capability
benchmarks cover aspects such as core linguistics, knowledge, and reasoning;
domain-specific benchmarks focus on fields like natural sciences, humanities
and social sciences, and engineering technology; target-specific benchmarks pay
attention to risks, reliability, agents, etc. We point out that current
benchmarks have problems such as inflated scores caused by data contamination,
unfair evaluation due to cultural and linguistic biases, and lack of evaluation
on process credibility and dynamic environments, and provide a referable design
paradigm for future benchmark innovation.