DISCO: 効率的なモデル評価のための多様化サンプル凝縮
DISCO: Diversifying Sample Condensation for Efficient Model Evaluation
October 9, 2025
著者: Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh
cs.AI
要旨
現代の機械学習モデルの評価は、非常に高コストになっています。LMMs-EvalやHELMなどのベンチマークでは、モデルごとに数千GPU時間を必要とします。このような高コストな評価は、研究の包括性を低下させ、イノベーションのサイクルを遅らせ、環境への影響を悪化させます。従来のアプローチは通常、2つのステップで構成されます。まず、アンカーとなるデータのサブセットを選択します。次に、このサブセットでの精度から最終的なテスト結果へのマッピングを学習します。しかし、この方法の欠点は、アンカーの選択がクラスタリングに依存するため、設計選択に敏感で複雑になることです。我々は、サンプル間の多様性を促進することは必須ではなく、モデルの応答において最大の多様性を示すサンプルを選択することが重要であると主張します。我々の手法であるDiversifying Sample Condensation (DISCO)は、モデル間の不一致が最大となるトップkのサンプルを選択します。これは、グローバルなクラスタリングではなく、貪欲でサンプル単位の統計を使用します。このアプローチは概念的によりシンプルです。理論的には、モデル間の不一致は、このような貪欲な選択に対して情報理論的に最適なルールを提供します。DISCOは、MMLU、Hellaswag、Winogrande、ARCといったデータセットにおいて、従来の手法を上回る実証的な成果を示し、性能予測において最先端の結果を達成しています。コードは以下で公開されています: https://github.com/arubique/disco-public。
English
Evaluating modern machine learning models has become prohibitively expensive.
Benchmarks such as LMMs-Eval and HELM demand thousands of GPU hours per model.
Costly evaluation reduces inclusivity, slows the cycle of innovation, and
worsens environmental impact. The typical approach follows two steps. First,
select an anchor subset of data. Second, train a mapping from the accuracy on
this subset to the final test result. The drawback is that anchor selection
depends on clustering, which can be complex and sensitive to design choices. We
argue that promoting diversity among samples is not essential; what matters is
to select samples that maximise diversity in model responses. Our
method, Diversifying Sample Condensation (DISCO), selects the top-k
samples with the greatest model disagreements. This uses greedy, sample-wise
statistics rather than global clustering. The approach is conceptually simpler.
From a theoretical view, inter-model disagreement provides an
information-theoretically optimal rule for such greedy selection.
DISCO shows empirical gains over prior methods, achieving
state-of-the-art results in performance prediction across MMLU, Hellaswag,
Winogrande, and ARC. Code is available here:
https://github.com/arubique/disco-public.