DISCO : Diversification de la Condensation d'Échantillons pour l'Évaluation Efficace des Modèles
DISCO: Diversifying Sample Condensation for Efficient Model Evaluation
October 9, 2025
papers.authors: Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh
cs.AI
papers.abstract
L'évaluation des modèles modernes d'apprentissage automatique est devenue prohibitivement coûteuse. Des benchmarks tels que LMMs-Eval et HELM nécessitent des milliers d'heures de GPU par modèle. Cette évaluation coûteuse réduit l'inclusivité, ralentit le cycle d'innovation et aggrave l'impact environnemental. L'approche typique suit deux étapes. Premièrement, sélectionner un sous-ensemble de données de référence. Deuxièmement, entraîner une correspondance entre la précision sur ce sous-ensemble et le résultat final du test. L'inconvénient est que la sélection des références dépend du clustering, qui peut être complexe et sensible aux choix de conception. Nous soutenons que promouvoir la diversité parmi les échantillons n'est pas essentiel ; ce qui importe est de sélectionner des échantillons qui maximisent la diversité dans les réponses des modèles. Notre méthode, Diversifying Sample Condensation (DISCO), sélectionne les k meilleurs échantillons présentant les plus grands désaccords entre modèles. Cela utilise des statistiques gloutonnes et par échantillon plutôt qu'un clustering global. L'approche est conceptuellement plus simple. D'un point de vue théorique, le désaccord inter-modèle fournit une règle optimale en théorie de l'information pour une telle sélection gloutonne. DISCO montre des gains empiriques par rapport aux méthodes précédentes, atteignant des résultats de pointe en prédiction de performance sur MMLU, Hellaswag, Winogrande et ARC. Le code est disponible ici : https://github.com/arubique/disco-public.
English
Evaluating modern machine learning models has become prohibitively expensive.
Benchmarks such as LMMs-Eval and HELM demand thousands of GPU hours per model.
Costly evaluation reduces inclusivity, slows the cycle of innovation, and
worsens environmental impact. The typical approach follows two steps. First,
select an anchor subset of data. Second, train a mapping from the accuracy on
this subset to the final test result. The drawback is that anchor selection
depends on clustering, which can be complex and sensitive to design choices. We
argue that promoting diversity among samples is not essential; what matters is
to select samples that maximise diversity in model responses. Our
method, Diversifying Sample Condensation (DISCO), selects the top-k
samples with the greatest model disagreements. This uses greedy, sample-wise
statistics rather than global clustering. The approach is conceptually simpler.
From a theoretical view, inter-model disagreement provides an
information-theoretically optimal rule for such greedy selection.
DISCO shows empirical gains over prior methods, achieving
state-of-the-art results in performance prediction across MMLU, Hellaswag,
Winogrande, and ARC. Code is available here:
https://github.com/arubique/disco-public.