Pruebas de Acuerdo de Referencia Bien Realizadas: Una Guía para la Evaluación de Referencia de LLM

Resumen

Los avances recientes en Modelos de Lenguaje (LMs) han catalizado la creación de múltiples puntos de referencia, diseñados para evaluar las capacidades generales de estos modelos. Sin embargo, una tarea crucial es evaluar la validez de los propios puntos de referencia. Esto se hace más comúnmente a través de las Pruebas de Acuerdo de Puntos de Referencia (BAT), donde nuevos puntos de referencia se validan contra los establecidos utilizando alguna métrica de acuerdo (por ejemplo, correlación de rangos). A pesar del papel crucial de BAT para los constructores y usuarios de puntos de referencia, no existen procedimientos estandarizados para dicha prueba de acuerdo. Esta deficiencia puede llevar a conclusiones inválidas, fomentando la desconfianza en los puntos de referencia y dificultando la elección adecuada del punto de referencia a utilizar. Al analizar más de 40 puntos de referencia prominentes, demostramos cómo algunas elecciones metodológicas pasadas por alto pueden influir significativamente en los resultados de BAT, socavando potencialmente la validez de las conclusiones. Para abordar estas inconsistencias, proponemos un conjunto de mejores prácticas para BAT y demostramos cómo el uso de estas metodologías mejora en gran medida la robustez y validez de BAT. Para fomentar la adopción y facilitar la investigación futura, presentamos BenchBench, un paquete de Python para BAT, y lanzamos el BenchBench-leaderboard, un meta-punto de referencia diseñado para evaluar puntos de referencia utilizando sus pares. Nuestros hallazgos subrayan la necesidad de un BAT estandarizado, asegurando la robustez y validez de las evaluaciones de puntos de referencia en el cambiante panorama de la investigación de modelos de lenguaje. Paquete BenchBench: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench

English

Recent advancements in Language Models (LMs) have catalyzed the creation of multiple benchmarks, designed to assess these models' general capabilities. A crucial task, however, is assessing the validity of the benchmarks themselves. This is most commonly done via Benchmark Agreement Testing (BAT), where new benchmarks are validated against established ones using some agreement metric (e.g., rank correlation). Despite the crucial role of BAT for benchmark builders and consumers, there are no standardized procedures for such agreement testing. This deficiency can lead to invalid conclusions, fostering mistrust in benchmarks and upending the ability to properly choose the appropriate benchmark to use. By analyzing over 40 prominent benchmarks, we demonstrate how some overlooked methodological choices can significantly influence BAT results, potentially undermining the validity of conclusions. To address these inconsistencies, we propose a set of best practices for BAT and demonstrate how utilizing these methodologies greatly improves BAT robustness and validity. To foster adoption and facilitate future research,, we introduce BenchBench, a python package for BAT, and release the BenchBench-leaderboard, a meta-benchmark designed to evaluate benchmarks using their peers. Our findings underscore the necessity for standardized BAT, ensuring the robustness and validity of benchmark evaluations in the evolving landscape of language model research. BenchBench Package: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench

Pruebas de Acuerdo de Referencia Bien Realizadas: Una Guía para la Evaluación de Referencia de LLM

Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Resumen

Support