DISCO: Diversificatie van Steekproefcondensatie voor Efficiënte Model Evaluatie

Samenvatting

Het evalueren van moderne machine learning-modellen is buitengewoon kostbaar geworden. Benchmarks zoals LMMs-Eval en HELM vereisen duizenden GPU-uren per model. De hoge evaluatiekosten verminderen de inclusiviteit, vertragen de innovatiecyclus en verergeren de milieueffecten. De gebruikelijke aanpak volgt twee stappen. Eerst wordt een ankerdeelverzameling van gegevens geselecteerd. Vervolgens wordt een mapping getraind van de nauwkeurigheid op deze deelverzameling naar het uiteindelijke testresultaat. Het nadeel is dat de selectie van ankers afhangt van clustering, wat complex kan zijn en gevoelig is voor ontwerpkeuzes. Wij beargumenteren dat het bevorderen van diversiteit onder steekproeven niet essentieel is; wat telt, is het selecteren van steekproeven die de diversiteit in modelresponsen maximaliseren. Onze methode, Diversifying Sample Condensation (DISCO), selecteert de top-k steekproeven met de grootste modelonenigheid. Dit maakt gebruik van hebberige, steekproefgewijze statistieken in plaats van globale clustering. De aanpak is conceptueel eenvoudiger. Vanuit een theoretisch perspectief biedt onenigheid tussen modellen een informatie-theoretisch optimale regel voor dergelijke hebberige selectie. DISCO toont empirische verbeteringen ten opzichte van eerdere methoden en behaalt state-of-the-art resultaten in prestatievoorspelling over MMLU, Hellaswag, Winogrande en ARC. Code is hier beschikbaar: https://github.com/arubique/disco-public.

English

Evaluating modern machine learning models has become prohibitively expensive. Benchmarks such as LMMs-Eval and HELM demand thousands of GPU hours per model. Costly evaluation reduces inclusivity, slows the cycle of innovation, and worsens environmental impact. The typical approach follows two steps. First, select an anchor subset of data. Second, train a mapping from the accuracy on this subset to the final test result. The drawback is that anchor selection depends on clustering, which can be complex and sensitive to design choices. We argue that promoting diversity among samples is not essential; what matters is to select samples that maximise diversity in model responses. Our method, Diversifying Sample Condensation (DISCO), selects the top-k samples with the greatest model disagreements. This uses greedy, sample-wise statistics rather than global clustering. The approach is conceptually simpler. From a theoretical view, inter-model disagreement provides an information-theoretically optimal rule for such greedy selection. DISCO shows empirical gains over prior methods, achieving state-of-the-art results in performance prediction across MMLU, Hellaswag, Winogrande, and ARC. Code is available here: https://github.com/arubique/disco-public.

DISCO: Diversificatie van Steekproefcondensatie voor Efficiënte Model Evaluatie

DISCO: Diversifying Sample Condensation for Efficient Model Evaluation

Samenvatting

Support