DISCO: Diversificatie van Steekproefcondensatie voor Efficiënte Model Evaluatie
DISCO: Diversifying Sample Condensation for Efficient Model Evaluation
October 9, 2025
Auteurs: Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh
cs.AI
Samenvatting
Het evalueren van moderne machine learning-modellen is buitengewoon kostbaar geworden.
Benchmarks zoals LMMs-Eval en HELM vereisen duizenden GPU-uren per model.
De hoge evaluatiekosten verminderen de inclusiviteit, vertragen de innovatiecyclus en
verergeren de milieueffecten. De gebruikelijke aanpak volgt twee stappen. Eerst
wordt een ankerdeelverzameling van gegevens geselecteerd. Vervolgens wordt een mapping
getraind van de nauwkeurigheid op deze deelverzameling naar het uiteindelijke testresultaat.
Het nadeel is dat de selectie van ankers afhangt van clustering, wat complex kan zijn en
gevoelig is voor ontwerpkeuzes. Wij beargumenteren dat het bevorderen van diversiteit
onder steekproeven niet essentieel is; wat telt, is het selecteren van steekproeven die
de diversiteit in modelresponsen maximaliseren. Onze methode, Diversifying Sample
Condensation (DISCO), selecteert de top-k steekproeven met de grootste modelonenigheid.
Dit maakt gebruik van hebberige, steekproefgewijze statistieken in plaats van globale
clustering. De aanpak is conceptueel eenvoudiger. Vanuit een theoretisch perspectief
biedt onenigheid tussen modellen een informatie-theoretisch optimale regel voor
dergelijke hebberige selectie. DISCO toont empirische verbeteringen ten opzichte van
eerdere methoden en behaalt state-of-the-art resultaten in prestatievoorspelling
over MMLU, Hellaswag, Winogrande en ARC. Code is hier beschikbaar:
https://github.com/arubique/disco-public.
English
Evaluating modern machine learning models has become prohibitively expensive.
Benchmarks such as LMMs-Eval and HELM demand thousands of GPU hours per model.
Costly evaluation reduces inclusivity, slows the cycle of innovation, and
worsens environmental impact. The typical approach follows two steps. First,
select an anchor subset of data. Second, train a mapping from the accuracy on
this subset to the final test result. The drawback is that anchor selection
depends on clustering, which can be complex and sensitive to design choices. We
argue that promoting diversity among samples is not essential; what matters is
to select samples that maximise diversity in model responses. Our
method, Diversifying Sample Condensation (DISCO), selects the top-k
samples with the greatest model disagreements. This uses greedy, sample-wise
statistics rather than global clustering. The approach is conceptually simpler.
From a theoretical view, inter-model disagreement provides an
information-theoretically optimal rule for such greedy selection.
DISCO shows empirical gains over prior methods, achieving
state-of-the-art results in performance prediction across MMLU, Hellaswag,
Winogrande, and ARC. Code is available here:
https://github.com/arubique/disco-public.