ONEBench para Testá-los a Todos: Avaliação de Referência ao Nível de Amostra Sobre Capacidades de Final Aberto
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities
December 9, 2024
Autores: Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
cs.AI
Resumo
Os conjuntos de testes fixos tradicionais são insuficientes para avaliar as capacidades de resposta aberta dos modelos de base. Para resolver isso, propomos o ONEBench (OpeN-Ended Benchmarking), um novo paradigma de teste que consolida conjuntos de dados de avaliação individuais em um pool de amostras unificado e em constante expansão. O ONEBench permite aos usuários gerar benchmarks de avaliação personalizados e abertos a partir desse pool, correspondendo a capacidades específicas de interesse. Ao agregar amostras de conjuntos de testes, o ONEBench possibilita a avaliação de diversas capacidades além daquelas cobertas pelos conjuntos de testes originais, ao mesmo tempo em que mitiga o overfitting e o viés do conjunto de dados. Mais importante ainda, ele enquadra a avaliação do modelo como um processo coletivo de seleção e agregação de testes ao nível da amostra.
A transição de benchmarks específicos de tarefa para o ONEBench introduz dois desafios: (1) heterogeneidade e (2) incompletude. A heterogeneidade refere-se à agregação de métricas diversas, enquanto a incompletude descreve a comparação de modelos avaliados em diferentes subconjuntos de dados. Para enfrentar esses desafios, exploramos algoritmos para agregar medidas esparsas em pontuações confiáveis de modelo. Nosso algoritmo de agregação garante identificabilidade (recuperando assintoticamente pontuações reais) e convergência rápida, possibilitando classificações precisas de modelos com menos dados. Em conjuntos de dados homogêneos, mostramos que nosso algoritmo de agregação fornece classificações altamente correlacionadas com aquelas produzidas por pontuações médias. Também demonstramos robustez a ~95% de medidas ausentes, reduzindo o custo de avaliação em até 20 vezes, com pouca ou nenhuma alteração nas classificações de modelos. Apresentamos o ONEBench-LLM para modelos de linguagem e o ONEBench-LMM para modelos de visão e linguagem, unificando avaliações em ambos os domínios. No geral, apresentamos uma técnica de avaliação aberta que pode agregar medidas ao nível da amostra, incompletas e heterogêneas, para expandir continuamente um benchmark junto aos modelos de base em rápida evolução.
English
Traditional fixed test sets fall short in evaluating open-ended capabilities
of foundation models. To address this, we propose ONEBench(OpeN-Ended
Benchmarking), a new testing paradigm that consolidates individual evaluation
datasets into a unified, ever-expanding sample pool. ONEBench allows users to
generate custom, open-ended evaluation benchmarks from this pool, corresponding
to specific capabilities of interest. By aggregating samples across test sets,
ONEBench enables the assessment of diverse capabilities beyond those covered by
the original test sets, while mitigating overfitting and dataset bias. Most
importantly, it frames model evaluation as a collective process of selecting
and aggregating sample-level tests.
The shift from task-specific benchmarks to ONEBench introduces two
challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the
aggregation over diverse metrics, while incompleteness describes comparing
models evaluated on different data subsets. To address these challenges, we
explore algorithms to aggregate sparse measurements into reliable model scores.
Our aggregation algorithm ensures identifiability(asymptotically recovering
ground-truth scores) and rapid convergence, enabling accurate model ranking
with less data. On homogenous datasets, we show our aggregation algorithm
provides rankings that highly correlate with those produced by average scores.
We also demonstrate robustness to ~95% of measurements missing, reducing
evaluation cost by up to 20x with little-to-no change in model rankings. We
introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language
models, unifying evaluations across these domains. Overall, we present a
technique for open-ended evaluation, which can aggregate over incomplete,
heterogeneous sample-level measurements to continually grow a benchmark
alongside the rapidly developing foundation models.Summary
AI-Generated Summary