ChatPaper.aiChatPaper

すべてをテストするONEBench:オープンエンドの機能に対するサンプルレベルのベンチマーク化

ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities

December 9, 2024
著者: Adhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge
cs.AI

要旨

従来の固定テストセットは、基盤モデルのオープンエンドの能力を評価する際に不十分である。この課題に対処するために、個々の評価データセットを統合し、絶えず拡大するサンプルプールに統合する新しいテストパラダイムであるONEBench(OpeN-Ended Benchmarking)を提案する。ONEBenchは、ユーザーがこのプールから特定の興味のある能力に対応するカスタムのオープンエンド評価ベンチマークを生成できるようにする。テストセット全体を集約することで、ONEBenchは、元のテストセットでカバーされていない多様な能力の評価を可能にし、過学習とデータセットの偏りを軽減する。さらに重要なことに、モデルの評価をサンプルレベルのテストの選択と集約の集団プロセスとしてフレーム化する。 タスク固有のベンチマークからONEBenchへの移行には、2つの課題が生じる:(1)異質性と(2)不完全性。異質性は異なるメトリクスを集約することを指し、不完全性は異なるデータサブセットで評価されたモデルを比較することを表す。これらの課題に対処するために、我々は、まばらな測定値を信頼性のあるモデルスコアに集約するアルゴリズムを探求する。我々の集約アルゴリズムは、同定可能性(漸近的に真のスコアを回復する)と迅速な収束を保証し、少ないデータで正確なモデルランキングを可能にする。均質なデータセットでは、我々の集約アルゴリズムが平均スコアによって生成されたランキングと高い相関性を示すことを示す。また、測定値の約95%が欠落しても頑健性を示し、モデルランキングにほとんど変化がないまま、評価コストを最大20倍削減する。言語モデル用のONEBench-LLMおよびビジョン言語モデル用のONEBench-LMMを導入し、これらの領域全体で評価を統一する。総じて、急速に発展する基盤モデルに沿ってベンチマークを継続的に拡大するための、不完全で異質なサンプルレベルの測定値を集約するオープンエンド評価技術を提案する。
English
Traditional fixed test sets fall short in evaluating open-ended capabilities of foundation models. To address this, we propose ONEBench(OpeN-Ended Benchmarking), a new testing paradigm that consolidates individual evaluation datasets into a unified, ever-expanding sample pool. ONEBench allows users to generate custom, open-ended evaluation benchmarks from this pool, corresponding to specific capabilities of interest. By aggregating samples across test sets, ONEBench enables the assessment of diverse capabilities beyond those covered by the original test sets, while mitigating overfitting and dataset bias. Most importantly, it frames model evaluation as a collective process of selecting and aggregating sample-level tests. The shift from task-specific benchmarks to ONEBench introduces two challenges: (1)heterogeneity and (2)incompleteness. Heterogeneity refers to the aggregation over diverse metrics, while incompleteness describes comparing models evaluated on different data subsets. To address these challenges, we explore algorithms to aggregate sparse measurements into reliable model scores. Our aggregation algorithm ensures identifiability(asymptotically recovering ground-truth scores) and rapid convergence, enabling accurate model ranking with less data. On homogenous datasets, we show our aggregation algorithm provides rankings that highly correlate with those produced by average scores. We also demonstrate robustness to ~95% of measurements missing, reducing evaluation cost by up to 20x with little-to-no change in model rankings. We introduce ONEBench-LLM for language models and ONEBench-LMM for vision-language models, unifying evaluations across these domains. Overall, we present a technique for open-ended evaluation, which can aggregate over incomplete, heterogeneous sample-level measurements to continually grow a benchmark alongside the rapidly developing foundation models.

Summary

AI-Generated Summary

PDF62December 13, 2024