Обзор бенчмарков для больших языковых моделей
A Survey on Large Language Model Benchmarks
August 21, 2025
Авторы: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
cs.AI
Аннотация
В последние годы, с быстрым развитием глубины и широты возможностей крупных языковых моделей, появляется все больше соответствующих оценочных тестов. Как инструмент количественной оценки производительности моделей, тесты являются не только основным средством измерения их возможностей, но и ключевым элементом, направляющим развитие моделей и способствующим технологическим инновациям. Мы впервые систематически рассматриваем текущее состояние и развитие тестов для крупных языковых моделей, классифицируя 283 репрезентативных теста на три категории: общие способности, предметно-ориентированные и целевые. Тесты на общие способности охватывают такие аспекты, как базовые лингвистические навыки, знания и логическое мышление; предметно-ориентированные тесты сосредоточены на областях, таких как естественные науки, гуманитарные и социальные науки, а также инженерные технологии; целевые тесты уделяют внимание рискам, надежности, агентам и т.д. Мы отмечаем, что текущие тесты сталкиваются с проблемами, такими как завышенные оценки из-за загрязнения данных, несправедливая оценка, вызванная культурными и языковыми предубеждениями, а также отсутствие оценки достоверности процессов и динамических сред, и предлагаем применимую парадигму проектирования для будущих инноваций в области тестов.
English
In recent years, with the rapid development of the depth and breadth of large
language models' capabilities, various corresponding evaluation benchmarks have
been emerging in increasing numbers. As a quantitative assessment tool for
model performance, benchmarks are not only a core means to measure model
capabilities but also a key element in guiding the direction of model
development and promoting technological innovation. We systematically review
the current status and development of large language model benchmarks for the
first time, categorizing 283 representative benchmarks into three categories:
general capabilities, domain-specific, and target-specific. General capability
benchmarks cover aspects such as core linguistics, knowledge, and reasoning;
domain-specific benchmarks focus on fields like natural sciences, humanities
and social sciences, and engineering technology; target-specific benchmarks pay
attention to risks, reliability, agents, etc. We point out that current
benchmarks have problems such as inflated scores caused by data contamination,
unfair evaluation due to cultural and linguistic biases, and lack of evaluation
on process credibility and dynamic environments, and provide a referable design
paradigm for future benchmark innovation.