LiveBench : Un benchmark exigeant et sans contamination pour les modèles de langage
LiveBench: A Challenging, Contamination-Free LLM Benchmark
June 27, 2024
Auteurs: Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum
cs.AI
Résumé
La contamination des ensembles de test, où les données de test d'un benchmark se retrouvent dans l'ensemble d'entraînement d'un modèle plus récent, est un obstacle bien documenté pour une évaluation équitable des LLM (modèles de langage) et peut rapidement rendre les benchmarks obsolètes. Pour atténuer ce problème, de nombreux benchmarks récents recueillent de nouvelles questions et évaluations via des juges humains ou des LLM ; cependant, ces approches peuvent introduire des biais significatifs et échouer lors de l'évaluation de questions difficiles. Dans ce travail, nous introduisons un nouveau benchmark pour les LLM conçu pour être immunisé à la fois contre la contamination des ensembles de test et les pièges des jugements par LLM et du crowdsourcing humain. Nous présentons LiveBench, le premier benchmark qui (1) contient des questions fréquemment mises à jour à partir de sources d'information récentes, (2) évalue les réponses automatiquement selon des valeurs de référence objectives, et (3) inclut une grande variété de tâches complexes, couvrant les mathématiques, le codage, le raisonnement, le langage, le suivi d'instructions et l'analyse de données. Pour y parvenir, LiveBench contient des questions basées sur des compétitions mathématiques récentes, des articles arXiv, des articles de presse et des ensembles de données, ainsi que des versions plus difficiles et non contaminées de tâches issues de benchmarks précédents tels que Big-Bench Hard, AMPS et IFEval. Nous évaluons de nombreux modèles propriétaires de premier plan, ainsi que des dizaines de modèles open-source allant de 0,5B à 110B de paramètres. LiveBench est difficile, les meilleurs modèles obtenant une précision inférieure à 65 %. Nous publions toutes les questions, le code et les réponses des modèles. Les questions seront ajoutées et mises à jour mensuellement, et nous publierons de nouvelles tâches ainsi que des versions plus difficiles au fil du temps afin que LiveBench puisse distinguer les capacités des LLM à mesure qu'ils s'améliorent à l'avenir. Nous encourageons l'engagement et la collaboration de la communauté pour étendre les tâches et les modèles du benchmark.
English
Test set contamination, wherein test data from a benchmark ends up in a newer
model's training set, is a well-documented obstacle for fair LLM evaluation and
can quickly render benchmarks obsolete. To mitigate this, many recent
benchmarks crowdsource new prompts and evaluations from human or LLM judges;
however, these can introduce significant biases, and break down when scoring
hard questions. In this work, we introduce a new benchmark for LLMs designed to
be immune to both test set contamination and the pitfalls of LLM judging and
human crowdsourcing. We release LiveBench, the first benchmark that (1)
contains frequently-updated questions from recent information sources, (2)
scores answers automatically according to objective ground-truth values, and
(3) contains a wide variety of challenging tasks, spanning math, coding,
reasoning, language, instruction following, and data analysis. To achieve this,
LiveBench contains questions that are based on recently-released math
competitions, arXiv papers, news articles, and datasets, and it contains
harder, contamination-free versions of tasks from previous benchmarks such as
Big-Bench Hard, AMPS, and IFEval. We evaluate many prominent closed-source
models, as well as dozens of open-source models ranging from 0.5B to 110B in
size. LiveBench is difficult, with top models achieving below 65% accuracy. We
release all questions, code, and model answers. Questions will be added and
updated on a monthly basis, and we will release new tasks and harder versions
of tasks over time so that LiveBench can distinguish between the capabilities
of LLMs as they improve in the future. We welcome community engagement and
collaboration for expanding the benchmark tasks and models.Summary
AI-Generated Summary