ChatPaper.aiChatPaper

Una Revisión de los Puntos de Referencia para Modelos de Lenguaje de Gran Escala

A Survey on Large Language Model Benchmarks

August 21, 2025
Autores: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
cs.AI

Resumen

En los últimos años, con el rápido desarrollo de la profundidad y amplitud de las capacidades de los modelos de lenguaje grandes, han surgido cada vez más diversos puntos de referencia de evaluación correspondientes. Como herramienta de evaluación cuantitativa del rendimiento de los modelos, los puntos de referencia no solo son un medio fundamental para medir las capacidades de los modelos, sino también un elemento clave para guiar la dirección del desarrollo de los modelos y promover la innovación tecnológica. Revisamos sistemáticamente, por primera vez, el estado actual y el desarrollo de los puntos de referencia para modelos de lenguaje grandes, clasificando 283 puntos de referencia representativos en tres categorías: capacidades generales, específicas de dominio y específicas de objetivo. Los puntos de referencia de capacidades generales abarcan aspectos como la lingüística central, el conocimiento y el razonamiento; los puntos de referencia específicos de dominio se centran en campos como las ciencias naturales, las humanidades y las ciencias sociales, y la tecnología de ingeniería; los puntos de referencia específicos de objetivo prestan atención a riesgos, confiabilidad, agentes, etc. Señalamos que los puntos de referencia actuales presentan problemas como puntuaciones infladas debido a la contaminación de datos, evaluaciones injustas por sesgos culturales y lingüísticos, y la falta de evaluación sobre la credibilidad del proceso y los entornos dinámicos, y proporcionamos un paradigma de diseño referencial para la innovación futura en puntos de referencia.
English
In recent years, with the rapid development of the depth and breadth of large language models' capabilities, various corresponding evaluation benchmarks have been emerging in increasing numbers. As a quantitative assessment tool for model performance, benchmarks are not only a core means to measure model capabilities but also a key element in guiding the direction of model development and promoting technological innovation. We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain-specific, and target-specific. General capability benchmarks cover aspects such as core linguistics, knowledge, and reasoning; domain-specific benchmarks focus on fields like natural sciences, humanities and social sciences, and engineering technology; target-specific benchmarks pay attention to risks, reliability, agents, etc. We point out that current benchmarks have problems such as inflated scores caused by data contamination, unfair evaluation due to cultural and linguistic biases, and lack of evaluation on process credibility and dynamic environments, and provide a referable design paradigm for future benchmark innovation.
PDF172August 22, 2025