Test di Accordo sui Benchmark Fatto Bene: Una Guida per la Valutazione dei Benchmark per Modelli Linguistici di Grande Dimensione
Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation
July 18, 2024
Autori: Yotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici (LMs) hanno catalizzato la creazione di numerosi benchmark, progettati per valutare le capacità generali di questi modelli. Un compito cruciale, tuttavia, è valutare la validità dei benchmark stessi. Questo viene comunemente fatto attraverso il Benchmark Agreement Testing (BAT), dove i nuovi benchmark vengono validati rispetto a quelli consolidati utilizzando una metrica di accordo (ad esempio, la correlazione di rango). Nonostante il ruolo cruciale del BAT per i creatori e i consumatori di benchmark, non esistono procedure standardizzate per tale test di accordo. Questa carenza può portare a conclusioni non valide, alimentando la sfiducia nei benchmark e compromettendo la capacità di scegliere correttamente il benchmark appropriato da utilizzare. Analizzando oltre 40 benchmark di rilievo, dimostriamo come alcune scelte metodologiche trascurate possano influenzare significativamente i risultati del BAT, potenzialmente minando la validità delle conclusioni. Per affrontare queste incongruenze, proponiamo una serie di best practice per il BAT e dimostriamo come l'utilizzo di queste metodologie migliori notevolmente la robustezza e la validità del BAT. Per favorire l'adozione e facilitare la ricerca futura, introduciamo BenchBench, un pacchetto Python per il BAT, e rilasciamo il BenchBench-leaderboard, un meta-benchmark progettato per valutare i benchmark utilizzando i loro pari. Le nostre scoperte sottolineano la necessità di un BAT standardizzato, garantendo la robustezza e la validità delle valutazioni dei benchmark nel panorama in evoluzione della ricerca sui modelli linguistici.
Pacchetto BenchBench: https://github.com/IBM/BenchBench
Leaderboard: https://huggingface.co/spaces/per/BenchBench
English
Recent advancements in Language Models (LMs) have catalyzed the creation of
multiple benchmarks, designed to assess these models' general capabilities. A
crucial task, however, is assessing the validity of the benchmarks themselves.
This is most commonly done via Benchmark Agreement Testing (BAT), where new
benchmarks are validated against established ones using some agreement metric
(e.g., rank correlation). Despite the crucial role of BAT for benchmark
builders and consumers, there are no standardized procedures for such agreement
testing. This deficiency can lead to invalid conclusions, fostering mistrust in
benchmarks and upending the ability to properly choose the appropriate
benchmark to use. By analyzing over 40 prominent benchmarks, we demonstrate how
some overlooked methodological choices can significantly influence BAT results,
potentially undermining the validity of conclusions. To address these
inconsistencies, we propose a set of best practices for BAT and demonstrate how
utilizing these methodologies greatly improves BAT robustness and validity. To
foster adoption and facilitate future research,, we introduce BenchBench, a
python package for BAT, and release the BenchBench-leaderboard, a
meta-benchmark designed to evaluate benchmarks using their peers. Our findings
underscore the necessity for standardized BAT, ensuring the robustness and
validity of benchmark evaluations in the evolving landscape of language model
research.
BenchBench Package: https://github.com/IBM/BenchBench
Leaderboard: https://huggingface.co/spaces/per/BenchBench