Test di Accordo sui Benchmark Fatto Bene: Una Guida per la Valutazione dei Benchmark per Modelli Linguistici di Grande Dimensione

Abstract

I recenti progressi nei Modelli Linguistici (LMs) hanno catalizzato la creazione di numerosi benchmark, progettati per valutare le capacità generali di questi modelli. Un compito cruciale, tuttavia, è valutare la validità dei benchmark stessi. Questo viene comunemente fatto attraverso il Benchmark Agreement Testing (BAT), dove i nuovi benchmark vengono validati rispetto a quelli consolidati utilizzando una metrica di accordo (ad esempio, la correlazione di rango). Nonostante il ruolo cruciale del BAT per i creatori e i consumatori di benchmark, non esistono procedure standardizzate per tale test di accordo. Questa carenza può portare a conclusioni non valide, alimentando la sfiducia nei benchmark e compromettendo la capacità di scegliere correttamente il benchmark appropriato da utilizzare. Analizzando oltre 40 benchmark di rilievo, dimostriamo come alcune scelte metodologiche trascurate possano influenzare significativamente i risultati del BAT, potenzialmente minando la validità delle conclusioni. Per affrontare queste incongruenze, proponiamo una serie di best practice per il BAT e dimostriamo come l'utilizzo di queste metodologie migliori notevolmente la robustezza e la validità del BAT. Per favorire l'adozione e facilitare la ricerca futura, introduciamo BenchBench, un pacchetto Python per il BAT, e rilasciamo il BenchBench-leaderboard, un meta-benchmark progettato per valutare i benchmark utilizzando i loro pari. Le nostre scoperte sottolineano la necessità di un BAT standardizzato, garantendo la robustezza e la validità delle valutazioni dei benchmark nel panorama in evoluzione della ricerca sui modelli linguistici. Pacchetto BenchBench: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench

English

Recent advancements in Language Models (LMs) have catalyzed the creation of multiple benchmarks, designed to assess these models' general capabilities. A crucial task, however, is assessing the validity of the benchmarks themselves. This is most commonly done via Benchmark Agreement Testing (BAT), where new benchmarks are validated against established ones using some agreement metric (e.g., rank correlation). Despite the crucial role of BAT for benchmark builders and consumers, there are no standardized procedures for such agreement testing. This deficiency can lead to invalid conclusions, fostering mistrust in benchmarks and upending the ability to properly choose the appropriate benchmark to use. By analyzing over 40 prominent benchmarks, we demonstrate how some overlooked methodological choices can significantly influence BAT results, potentially undermining the validity of conclusions. To address these inconsistencies, we propose a set of best practices for BAT and demonstrate how utilizing these methodologies greatly improves BAT robustness and validity. To foster adoption and facilitate future research,, we introduce BenchBench, a python package for BAT, and release the BenchBench-leaderboard, a meta-benchmark designed to evaluate benchmarks using their peers. Our findings underscore the necessity for standardized BAT, ensuring the robustness and validity of benchmark evaluations in the evolving landscape of language model research. BenchBench Package: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench

Test di Accordo sui Benchmark Fatto Bene: Una Guida per la Valutazione dei Benchmark per Modelli Linguistici di Grande Dimensione

Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Abstract

Support