ChatPaper.aiChatPaper

LiveBench : Un benchmark exigeant et sans contamination pour les modèles de langage

LiveBench: A Challenging, Contamination-Free LLM Benchmark

June 27, 2024
Auteurs: Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum
cs.AI

Résumé

La contamination des ensembles de test, où les données de test d'un benchmark se retrouvent dans l'ensemble d'entraînement d'un modèle plus récent, est un obstacle bien documenté pour une évaluation équitable des LLM (modèles de langage) et peut rapidement rendre les benchmarks obsolètes. Pour atténuer ce problème, de nombreux benchmarks récents recueillent de nouvelles questions et évaluations via des juges humains ou des LLM ; cependant, ces approches peuvent introduire des biais significatifs et échouer lors de l'évaluation de questions difficiles. Dans ce travail, nous introduisons un nouveau benchmark pour les LLM conçu pour être immunisé à la fois contre la contamination des ensembles de test et les pièges des jugements par LLM et du crowdsourcing humain. Nous présentons LiveBench, le premier benchmark qui (1) contient des questions fréquemment mises à jour à partir de sources d'information récentes, (2) évalue les réponses automatiquement selon des valeurs de référence objectives, et (3) inclut une grande variété de tâches complexes, couvrant les mathématiques, le codage, le raisonnement, le langage, le suivi d'instructions et l'analyse de données. Pour y parvenir, LiveBench contient des questions basées sur des compétitions mathématiques récentes, des articles arXiv, des articles de presse et des ensembles de données, ainsi que des versions plus difficiles et non contaminées de tâches issues de benchmarks précédents tels que Big-Bench Hard, AMPS et IFEval. Nous évaluons de nombreux modèles propriétaires de premier plan, ainsi que des dizaines de modèles open-source allant de 0,5B à 110B de paramètres. LiveBench est difficile, les meilleurs modèles obtenant une précision inférieure à 65 %. Nous publions toutes les questions, le code et les réponses des modèles. Les questions seront ajoutées et mises à jour mensuellement, et nous publierons de nouvelles tâches ainsi que des versions plus difficiles au fil du temps afin que LiveBench puisse distinguer les capacités des LLM à mesure qu'ils s'améliorent à l'avenir. Nous encourageons l'engagement et la collaboration de la communauté pour étendre les tâches et les modèles du benchmark.
English
Test set contamination, wherein test data from a benchmark ends up in a newer model's training set, is a well-documented obstacle for fair LLM evaluation and can quickly render benchmarks obsolete. To mitigate this, many recent benchmarks crowdsource new prompts and evaluations from human or LLM judges; however, these can introduce significant biases, and break down when scoring hard questions. In this work, we introduce a new benchmark for LLMs designed to be immune to both test set contamination and the pitfalls of LLM judging and human crowdsourcing. We release LiveBench, the first benchmark that (1) contains frequently-updated questions from recent information sources, (2) scores answers automatically according to objective ground-truth values, and (3) contains a wide variety of challenging tasks, spanning math, coding, reasoning, language, instruction following, and data analysis. To achieve this, LiveBench contains questions that are based on recently-released math competitions, arXiv papers, news articles, and datasets, and it contains harder, contamination-free versions of tasks from previous benchmarks such as Big-Bench Hard, AMPS, and IFEval. We evaluate many prominent closed-source models, as well as dozens of open-source models ranging from 0.5B to 110B in size. LiveBench is difficult, with top models achieving below 65% accuracy. We release all questions, code, and model answers. Questions will be added and updated on a monthly basis, and we will release new tasks and harder versions of tasks over time so that LiveBench can distinguish between the capabilities of LLMs as they improve in the future. We welcome community engagement and collaboration for expanding the benchmark tasks and models.

Summary

AI-Generated Summary

PDF233November 29, 2024