DISCO: Diversifizierung der Probenkondensation für effiziente Modellbewertung
DISCO: Diversifying Sample Condensation for Efficient Model Evaluation
October 9, 2025
papers.authors: Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh
cs.AI
papers.abstract
Die Bewertung moderner Machine-Learning-Modelle ist inzwischen unverhältnismäßig teuer geworden. Benchmarks wie LMMs-Eval und HELM erfordern Tausende von GPU-Stunden pro Modell. Diese kostspielige Bewertung verringert die Inklusivität, verlangsamt den Innovationszyklus und verschärft die Umweltauswirkungen. Der typische Ansatz folgt zwei Schritten. Zuerst wird eine Anker-Teilmenge von Daten ausgewählt. Danach wird eine Abbildung von der Genauigkeit auf dieser Teilmenge zum endgültigen Testergebnis trainiert. Der Nachteil dabei ist, dass die Ankerauswahl auf Clustering basiert, was komplex und empfindlich gegenüber Designentscheidungen sein kann. Wir argumentieren, dass die Förderung von Vielfalt unter den Stichproben nicht entscheidend ist; was zählt, ist die Auswahl von Stichproben, die die Vielfalt in den Modellantworten maximieren. Unsere Methode, Diversifying Sample Condensation (DISCO), wählt die Top-k-Stichproben mit den größten Modellunterschieden aus. Dabei werden gierige, stichprobenweise Statistiken verwendet, anstatt globales Clustering. Der Ansatz ist konzeptionell einfacher. Aus theoretischer Sicht bietet die Unstimmigkeit zwischen Modellen eine informationstheoretisch optimale Regel für eine solche gierige Auswahl. DISCO zeigt empirische Verbesserungen gegenüber früheren Methoden und erzielt state-of-the-art Ergebnisse in der Leistungsvorhersage über MMLU, Hellaswag, Winogrande und ARC. Der Code ist hier verfügbar: https://github.com/arubique/disco-public.
English
Evaluating modern machine learning models has become prohibitively expensive.
Benchmarks such as LMMs-Eval and HELM demand thousands of GPU hours per model.
Costly evaluation reduces inclusivity, slows the cycle of innovation, and
worsens environmental impact. The typical approach follows two steps. First,
select an anchor subset of data. Second, train a mapping from the accuracy on
this subset to the final test result. The drawback is that anchor selection
depends on clustering, which can be complex and sensitive to design choices. We
argue that promoting diversity among samples is not essential; what matters is
to select samples that maximise diversity in model responses. Our
method, Diversifying Sample Condensation (DISCO), selects the top-k
samples with the greatest model disagreements. This uses greedy, sample-wise
statistics rather than global clustering. The approach is conceptually simpler.
From a theoretical view, inter-model disagreement provides an
information-theoretically optimal rule for such greedy selection.
DISCO shows empirical gains over prior methods, achieving
state-of-the-art results in performance prediction across MMLU, Hellaswag,
Winogrande, and ARC. Code is available here:
https://github.com/arubique/disco-public.