ONEBench para probarlos a todos: Evaluación a nivel de muestra sobre capacidades abiertas.
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities
December 9, 2024
Autores: Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
cs.AI
Resumen
Los conjuntos de pruebas fijos tradicionales resultan insuficientes para evaluar las capacidades abiertas de los modelos base. Para abordar esto, proponemos ONEBench (OpeN-Ended Benchmarking), un nuevo paradigma de pruebas que consolida conjuntos de evaluación individuales en un pool de muestras unificado y en constante expansión. ONEBench permite a los usuarios generar benchmarks de evaluación abiertos personalizados a partir de este pool, correspondientes a capacidades específicas de interés. Al agregar muestras de diferentes conjuntos de pruebas, ONEBench posibilita la evaluación de capacidades diversas más allá de las cubiertas por los conjuntos de pruebas originales, al tiempo que mitiga el sobreajuste y el sesgo del conjunto de datos. Lo más importante es que enmarca la evaluación del modelo como un proceso colectivo de selección y agregación de pruebas a nivel de muestra.
El cambio de benchmarks específicos de tarea a ONEBench introduce dos desafíos: (1) heterogeneidad y (2) incompletitud. La heterogeneidad se refiere a la agregación de diversas métricas, mientras que la incompletitud describe la comparación de modelos evaluados en diferentes subconjuntos de datos. Para abordar estos desafíos, exploramos algoritmos para agregar medidas dispersas en puntajes de modelo confiables. Nuestro algoritmo de agregación garantiza identificabilidad (recuperando asintóticamente los puntajes verdaderos) y una convergencia rápida, lo que permite una clasificación precisa de modelos con menos datos. En conjuntos de datos homogéneos, demostramos que nuestro algoritmo de agregación proporciona clasificaciones que se correlacionan fuertemente con las producidas por puntajes promedio. También demostramos robustez ante ~95% de medidas faltantes, reduciendo el costo de evaluación hasta 20 veces con poco o ningún cambio en las clasificaciones de modelos. Presentamos ONEBench-LLM para modelos de lenguaje y ONEBench-LMM para modelos de visión-lenguaje, unificando evaluaciones en estos dominios. En general, presentamos una técnica para evaluación abierta, que puede agregar mediciones de muestra incompletas y heterogéneas para hacer crecer continuamente un benchmark junto con los modelos base en desarrollo rápido.
English
Traditional fixed test sets fall short in evaluating open-ended capabilities
of foundation models. To address this, we propose ONEBench(OpeN-Ended
Benchmarking), a new testing paradigm that consolidates individual evaluation
datasets into a unified, ever-expanding sample pool. ONEBench allows users to
generate custom, open-ended evaluation benchmarks from this pool, corresponding
to specific capabilities of interest. By aggregating samples across test sets,
ONEBench enables the assessment of diverse capabilities beyond those covered by
the original test sets, while mitigating overfitting and dataset bias. Most
importantly, it frames model evaluation as a collective process of selecting
and aggregating sample-level tests.
The shift from task-specific benchmarks to ONEBench introduces two
challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the
aggregation over diverse metrics, while incompleteness describes comparing
models evaluated on different data subsets. To address these challenges, we
explore algorithms to aggregate sparse measurements into reliable model scores.
Our aggregation algorithm ensures identifiability(asymptotically recovering
ground-truth scores) and rapid convergence, enabling accurate model ranking
with less data. On homogenous datasets, we show our aggregation algorithm
provides rankings that highly correlate with those produced by average scores.
We also demonstrate robustness to ~95% of measurements missing, reducing
evaluation cost by up to 20x with little-to-no change in model rankings. We
introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language
models, unifying evaluations across these domains. Overall, we present a
technique for open-ended evaluation, which can aggregate over incomplete,
heterogeneous sample-level measurements to continually grow a benchmark
alongside the rapidly developing foundation models.Summary
AI-Generated Summary