대규모 언어 모델 벤치마크에 관한 연구
A Survey on Large Language Model Benchmarks
August 21, 2025
저자: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
cs.AI
초록
최근 몇 년 동안 대규모 언어 모델의 능력이 깊이와 폭에서 급속히 발전함에 따라, 이에 상응하는 다양한 평가 벤치마크가 점점 더 많이 등장하고 있습니다. 모델 성능을 정량적으로 평가하는 도구로서, 벤치마크는 모델 능력을 측정하는 핵심 수단일 뿐만 아니라 모델 개발 방향을 안내하고 기술 혁신을 촉진하는 중요한 요소이기도 합니다. 우리는 대규모 언어 모델 벤치마크의 현황과 발전을 처음으로 체계적으로 검토하여, 283개의 대표적인 벤치마크를 일반 능력, 도메인 특화, 목표 특화의 세 가지 범주로 분류했습니다. 일반 능력 벤치마크는 핵심 언어학, 지식, 추론 등의 측면을 다루며, 도메인 특화 벤치마크는 자연과학, 인문사회과학, 공학 기술 등의 분야에 초점을 맞춥니다. 목표 특화 벤치마크는 위험성, 신뢰성, 에이전트 등에 주목합니다. 우리는 현재의 벤치마크가 데이터 오염으로 인한 점수 부풀림, 문화 및 언어적 편향으로 인한 불공정한 평가, 과정 신뢰성과 동적 환경에 대한 평가 부족 등의 문제를 가지고 있음을 지적하고, 향후 벤치마크 혁신을 위한 참조 가능한 설계 패러다임을 제시합니다.
English
In recent years, with the rapid development of the depth and breadth of large
language models' capabilities, various corresponding evaluation benchmarks have
been emerging in increasing numbers. As a quantitative assessment tool for
model performance, benchmarks are not only a core means to measure model
capabilities but also a key element in guiding the direction of model
development and promoting technological innovation. We systematically review
the current status and development of large language model benchmarks for the
first time, categorizing 283 representative benchmarks into three categories:
general capabilities, domain-specific, and target-specific. General capability
benchmarks cover aspects such as core linguistics, knowledge, and reasoning;
domain-specific benchmarks focus on fields like natural sciences, humanities
and social sciences, and engineering technology; target-specific benchmarks pay
attention to risks, reliability, agents, etc. We point out that current
benchmarks have problems such as inflated scores caused by data contamination,
unfair evaluation due to cultural and linguistic biases, and lack of evaluation
on process credibility and dynamic environments, and provide a referable design
paradigm for future benchmark innovation.