ChatPaper.aiChatPaper

ONEBench pour tous les tester : Évaluation au niveau de l'échantillon des capacités ouvertes.

ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities

December 9, 2024
Auteurs: Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
cs.AI

Résumé

Les ensembles de tests fixes traditionnels sont insuffisants pour évaluer les capacités ouvertes des modèles de base. Pour remédier à cela, nous proposons ONEBench (OpeN-Ended Benchmarking), un nouveau paradigme de test qui consolide des ensembles de données d'évaluation individuels dans un pool d'échantillons unifié et en expansion continue. ONEBench permet aux utilisateurs de générer des benchmarks d'évaluation ouverts personnalisés à partir de ce pool, correspondant à des capacités spécifiques d'intérêt. En agrégeant des échantillons à travers des ensembles de tests, ONEBench permet l'évaluation de capacités diverses au-delà de celles couvertes par les ensembles de tests originaux, tout en atténuant le surajustement et les biais des ensembles de données. Surtout, il encadre l'évaluation des modèles comme un processus collectif de sélection et d'agrégation des tests au niveau des échantillons. Le passage des benchmarks spécifiques aux tâches à ONEBench introduit deux défis : (1) l'hétérogénéité et (2) l'incomplétude. L'hétérogénéité fait référence à l'agrégation de diverses mesures, tandis que l'incomplétude décrit la comparaison de modèles évalués sur différents sous-ensembles de données. Pour relever ces défis, nous explorons des algorithmes pour agréger des mesures dispersées en scores fiables de modèles. Notre algorithme d'agrégation garantit l'identifiabilité (récupération asymptotique des scores réels) et une convergence rapide, permettant un classement précis des modèles avec moins de données. Sur des ensembles de données homogènes, nous montrons que notre algorithme d'agrégation fournit des classements fortement corrélés avec ceux produits par des scores moyens. Nous démontrons également une robustesse à environ 95 % de mesures manquantes, réduisant le coût de l'évaluation jusqu'à 20 fois avec peu ou pas de changement dans les classements des modèles. Nous introduisons ONEBench-LLM pour les modèles de langage et ONEBench-LMM pour les modèles de vision-langage, unifiant les évaluations dans ces domaines. Dans l'ensemble, nous présentons une technique d'évaluation ouverte, capable d'agréger des mesures au niveau des échantillons incomplètes et hétérogènes pour faire évoluer continuellement un benchmark aux côtés des modèles de base en développement rapide.
English
Traditional fixed test sets fall short in evaluating open-ended capabilities of foundation models. To address this, we propose ONEBench(OpeN-Ended Benchmarking), a new testing paradigm that consolidates individual evaluation datasets into a unified, ever-expanding sample pool. ONEBench allows users to generate custom, open-ended evaluation benchmarks from this pool, corresponding to specific capabilities of interest. By aggregating samples across test sets, ONEBench enables the assessment of diverse capabilities beyond those covered by the original test sets, while mitigating overfitting and dataset bias. Most importantly, it frames model evaluation as a collective process of selecting and aggregating sample-level tests. The shift from task-specific benchmarks to ONEBench introduces two challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the aggregation over diverse metrics, while incompleteness describes comparing models evaluated on different data subsets. To address these challenges, we explore algorithms to aggregate sparse measurements into reliable model scores. Our aggregation algorithm ensures identifiability(asymptotically recovering ground-truth scores) and rapid convergence, enabling accurate model ranking with less data. On homogenous datasets, we show our aggregation algorithm provides rankings that highly correlate with those produced by average scores. We also demonstrate robustness to ~95% of measurements missing, reducing evaluation cost by up to 20x with little-to-no change in model rankings. We introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language models, unifying evaluations across these domains. Overall, we present a technique for open-ended evaluation, which can aggregate over incomplete, heterogeneous sample-level measurements to continually grow a benchmark alongside the rapidly developing foundation models.

Summary

AI-Generated Summary

PDF62December 13, 2024