ChatPaper.aiChatPaper

DISCO: Diversifizierung der Probenkondensation für effiziente Modellbewertung

DISCO: Diversifying Sample Condensation for Efficient Model Evaluation

October 9, 2025
papers.authors: Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh
cs.AI

papers.abstract

Die Bewertung moderner Machine-Learning-Modelle ist inzwischen unverhältnismäßig teuer geworden. Benchmarks wie LMMs-Eval und HELM erfordern Tausende von GPU-Stunden pro Modell. Diese kostspielige Bewertung verringert die Inklusivität, verlangsamt den Innovationszyklus und verschärft die Umweltauswirkungen. Der typische Ansatz folgt zwei Schritten. Zuerst wird eine Anker-Teilmenge von Daten ausgewählt. Danach wird eine Abbildung von der Genauigkeit auf dieser Teilmenge zum endgültigen Testergebnis trainiert. Der Nachteil dabei ist, dass die Ankerauswahl auf Clustering basiert, was komplex und empfindlich gegenüber Designentscheidungen sein kann. Wir argumentieren, dass die Förderung von Vielfalt unter den Stichproben nicht entscheidend ist; was zählt, ist die Auswahl von Stichproben, die die Vielfalt in den Modellantworten maximieren. Unsere Methode, Diversifying Sample Condensation (DISCO), wählt die Top-k-Stichproben mit den größten Modellunterschieden aus. Dabei werden gierige, stichprobenweise Statistiken verwendet, anstatt globales Clustering. Der Ansatz ist konzeptionell einfacher. Aus theoretischer Sicht bietet die Unstimmigkeit zwischen Modellen eine informationstheoretisch optimale Regel für eine solche gierige Auswahl. DISCO zeigt empirische Verbesserungen gegenüber früheren Methoden und erzielt state-of-the-art Ergebnisse in der Leistungsvorhersage über MMLU, Hellaswag, Winogrande und ARC. Der Code ist hier verfügbar: https://github.com/arubique/disco-public.
English
Evaluating modern machine learning models has become prohibitively expensive. Benchmarks such as LMMs-Eval and HELM demand thousands of GPU hours per model. Costly evaluation reduces inclusivity, slows the cycle of innovation, and worsens environmental impact. The typical approach follows two steps. First, select an anchor subset of data. Second, train a mapping from the accuracy on this subset to the final test result. The drawback is that anchor selection depends on clustering, which can be complex and sensitive to design choices. We argue that promoting diversity among samples is not essential; what matters is to select samples that maximise diversity in model responses. Our method, Diversifying Sample Condensation (DISCO), selects the top-k samples with the greatest model disagreements. This uses greedy, sample-wise statistics rather than global clustering. The approach is conceptually simpler. From a theoretical view, inter-model disagreement provides an information-theoretically optimal rule for such greedy selection. DISCO shows empirical gains over prior methods, achieving state-of-the-art results in performance prediction across MMLU, Hellaswag, Winogrande, and ARC. Code is available here: https://github.com/arubique/disco-public.
PDF142October 13, 2025