ONEBench, um sie alle zu testen: Benchmarking auf Sample-Ebene über offene Fähigkeiten
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities
December 9, 2024
Autoren: Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
cs.AI
Zusammenfassung
Traditionelle feste Testsets reichen nicht aus, um die offenen Fähigkeiten von Grundlagenmodellen zu bewerten. Um dies zu lösen, schlagen wir ONEBench (OpeN-Ended Benchmarking) vor, ein neues Testparadigma, das einzelne Evaluierungsdatensätze in einen vereinheitlichten, ständig wachsenden Stichprobenpool integriert. ONEBench ermöglicht es Benutzern, benutzerdefinierte, offene Evaluierungsbenchmarks aus diesem Pool zu generieren, die spezifischen interessierenden Fähigkeiten entsprechen. Durch die Aggregation von Stichproben über Testsets hinweg ermöglicht ONEBench die Bewertung vielfältiger Fähigkeiten, die über die in den ursprünglichen Testsets abgedeckten hinausgehen, und gleichzeitig die Reduzierung von Overfitting und Datensatz-Bias. Am wichtigsten ist, dass es die Modellbewertung als kollektiven Prozess des Auswählens und Aggregierens von Stichproben-Ebene-Tests darstellt.
Der Übergang von aufgabenspezifischen Benchmarks zu ONEBench bringt zwei Herausforderungen mit sich: (1) Heterogenität und (2) Unvollständigkeit. Heterogenität bezieht sich auf die Aggregation über verschiedene Metriken, während Unvollständigkeit das Vergleichen von Modellen beschreibt, die auf unterschiedlichen Datensubsets bewertet wurden. Um diesen Herausforderungen zu begegnen, erforschen wir Algorithmen, um spärliche Messungen in zuverlässige Modellbewertungen zu aggregieren. Unser Aggregationsalgorithmus gewährleistet Identifizierbarkeit (asymptotisch die Wiederherstellung von Ground-Truth-Bewertungen) und schnelle Konvergenz, was eine genaue Modell-Rangliste mit weniger Daten ermöglicht. Auf homogenen Datensätzen zeigen wir, dass unser Aggregationsalgorithmus Ranglisten liefert, die stark mit denen übereinstimmen, die durch Durchschnittsbewertungen erstellt wurden. Wir zeigen auch die Robustheit gegenüber ~95% fehlender Messungen, wodurch die Evaluierungskosten um bis zu 20x reduziert werden, bei nur geringfügigen oder keinen Änderungen in den Modell-Rankings. Wir stellen ONEBench-LLM für Sprachmodelle und ONEBench-LMM für Bild-Sprache-Modelle vor, die Bewertungen über diese Domänen hinweg vereinheitlichen. Insgesamt präsentieren wir eine Technik für die offene Bewertung, die unvollständige, heterogene Stichproben-Ebene-Messungen aggregieren kann, um kontinuierlich einen Benchmark neben den sich schnell entwickelnden Grundlagenmodellen wachsen zu lassen.
English
Traditional fixed test sets fall short in evaluating open-ended capabilities
of foundation models. To address this, we propose ONEBench(OpeN-Ended
Benchmarking), a new testing paradigm that consolidates individual evaluation
datasets into a unified, ever-expanding sample pool. ONEBench allows users to
generate custom, open-ended evaluation benchmarks from this pool, corresponding
to specific capabilities of interest. By aggregating samples across test sets,
ONEBench enables the assessment of diverse capabilities beyond those covered by
the original test sets, while mitigating overfitting and dataset bias. Most
importantly, it frames model evaluation as a collective process of selecting
and aggregating sample-level tests.
The shift from task-specific benchmarks to ONEBench introduces two
challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the
aggregation over diverse metrics, while incompleteness describes comparing
models evaluated on different data subsets. To address these challenges, we
explore algorithms to aggregate sparse measurements into reliable model scores.
Our aggregation algorithm ensures identifiability(asymptotically recovering
ground-truth scores) and rapid convergence, enabling accurate model ranking
with less data. On homogenous datasets, we show our aggregation algorithm
provides rankings that highly correlate with those produced by average scores.
We also demonstrate robustness to ~95% of measurements missing, reducing
evaluation cost by up to 20x with little-to-no change in model rankings. We
introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language
models, unifying evaluations across these domains. Overall, we present a
technique for open-ended evaluation, which can aggregate over incomplete,
heterogeneous sample-level measurements to continually grow a benchmark
alongside the rapidly developing foundation models.Summary
AI-Generated Summary