ONEBench om ze allemaal te testen: Benchmarking op sample-niveau over open-eindmogelijkheden.
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities
December 9, 2024
Auteurs: Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
cs.AI
Samenvatting
Traditionele vaste testsets schieten tekort bij het evalueren van open-ended mogelijkheden van foundation modellen. Om dit aan te pakken, stellen we ONEBench (OpeN-Ended Benchmarking) voor, een nieuw testparadigma dat individuele evaluatiedatasets consolideert in een verenigde, steeds groter wordende steekproefpool. ONEBench stelt gebruikers in staat om op maat gemaakte, open-ended evaluatiebenchmarks te genereren vanuit deze pool, die overeenkomen met specifieke interessante mogelijkheden. Door steekproeven over testsets te aggregaten, maakt ONEBench de beoordeling van diverse mogelijkheden mogelijk die verder gaan dan die gedekt door de oorspronkelijke testsets, terwijl overpassing en datasetbias worden verminderd. Belangrijker nog, het kader stelt modelbeoordeling voor als een collectief proces van selectie en aggregatie van steekproefniveau tests.
De verschuiving van taakspecifieke benchmarks naar ONEBench introduceert twee uitdagingen: (1) heterogeniteit en (2) onvolledigheid. Heterogeniteit verwijst naar de aggregatie over diverse metrieken, terwijl onvolledigheid het vergelijken van modellen beschrijft die geëvalueerd zijn op verschillende gegevenssubsets. Om deze uitdagingen aan te pakken, onderzoeken we algoritmes om schaarse metingen te aggregaten tot betrouwbare modelscores. Ons aggregatiealgoritme zorgt voor identificeerbaarheid (asymptotisch herstellen van de grondwaarheidsscores) en snelle convergentie, waardoor nauwkeurige modelranglijsten mogelijk zijn met minder gegevens. Op homogene datasets tonen we aan dat ons aggregatiealgoritme ranglijsten levert die sterk correleren met die geproduceerd door gemiddelde scores. We tonen ook robuustheid aan tegen ~95% van ontbrekende metingen, waardoor de evaluatiekosten tot 20x worden verlaagd met weinig tot geen verandering in modelranglijsten. We introduceren ONEBench-LLM voor taalmodellen en ONEBench-LMM voor visie-taalmodellen, waarmee evaluaties worden verenigd over deze domeinen. Over het algemeen presenteren we een techniek voor open-ended evaluatie, die incomplete, heterogene steekproefniveau metingen kan aggregaten om continu een benchmark te laten groeien naast de snel ontwikkelende foundation modellen.
English
Traditional fixed test sets fall short in evaluating open-ended capabilities
of foundation models. To address this, we propose ONEBench(OpeN-Ended
Benchmarking), a new testing paradigm that consolidates individual evaluation
datasets into a unified, ever-expanding sample pool. ONEBench allows users to
generate custom, open-ended evaluation benchmarks from this pool, corresponding
to specific capabilities of interest. By aggregating samples across test sets,
ONEBench enables the assessment of diverse capabilities beyond those covered by
the original test sets, while mitigating overfitting and dataset bias. Most
importantly, it frames model evaluation as a collective process of selecting
and aggregating sample-level tests.
The shift from task-specific benchmarks to ONEBench introduces two
challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the
aggregation over diverse metrics, while incompleteness describes comparing
models evaluated on different data subsets. To address these challenges, we
explore algorithms to aggregate sparse measurements into reliable model scores.
Our aggregation algorithm ensures identifiability(asymptotically recovering
ground-truth scores) and rapid convergence, enabling accurate model ranking
with less data. On homogenous datasets, we show our aggregation algorithm
provides rankings that highly correlate with those produced by average scores.
We also demonstrate robustness to ~95% of measurements missing, reducing
evaluation cost by up to 20x with little-to-no change in model rankings. We
introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language
models, unifying evaluations across these domains. Overall, we present a
technique for open-ended evaluation, which can aggregate over incomplete,
heterogeneous sample-level measurements to continually grow a benchmark
alongside the rapidly developing foundation models.