DISCO: 효율적인 모델 평가를 위한 샘플 압축 다양화
DISCO: Diversifying Sample Condensation for Efficient Model Evaluation
October 9, 2025
저자: Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh
cs.AI
초록
현대 머신러닝 모델을 평가하는 것은 매우 비용이 많이 드는 작업이 되었습니다. LMMs-Eval 및 HELM과 같은 벤치마크는 모델당 수천 GPU 시간을 요구합니다. 이러한 고비용 평가는 포용성을 감소시키고, 혁신 주기를 늦추며, 환경적 영향을 악화시킵니다. 일반적인 접근 방식은 두 단계로 이루어집니다. 첫째, 데이터의 앵커 부분집합을 선택합니다. 둘째, 이 부분집합에서의 정확도를 최종 테스트 결과에 매핑하는 모델을 학습시킵니다. 이 방식의 단점은 앵커 선택이 클러스터링에 의존하며, 이는 복잡하고 설계 선택에 민감할 수 있다는 점입니다. 우리는 샘플 간 다양성을 촉진하는 것이 필수적이지 않다고 주장합니다. 중요한 것은 모델 응답에서 최대한의 다양성을 보이는 샘플을 선택하는 것입니다. 우리의 방법인 Diversifying Sample Condensation (DISCO)는 모델 간 불일치가 가장 큰 상위 k개의 샘플을 선택합니다. 이는 전역적 클러스터링이 아닌 탐욕적, 샘플 단위 통계를 사용합니다. 이 접근 방식은 개념적으로 더 단순합니다. 이론적 관점에서, 모델 간 불일치는 이러한 탐욕적 선택을 위한 정보 이론적으로 최적의 규칙을 제공합니다. DISCO는 이전 방법들보다 실험적으로 우수한 성과를 보이며, MMLU, Hellaswag, Winogrande, ARC에서 최첨단 성능 예측 결과를 달성했습니다. 코드는 여기에서 확인할 수 있습니다: https://github.com/arubique/disco-public.
English
Evaluating modern machine learning models has become prohibitively expensive.
Benchmarks such as LMMs-Eval and HELM demand thousands of GPU hours per model.
Costly evaluation reduces inclusivity, slows the cycle of innovation, and
worsens environmental impact. The typical approach follows two steps. First,
select an anchor subset of data. Second, train a mapping from the accuracy on
this subset to the final test result. The drawback is that anchor selection
depends on clustering, which can be complex and sensitive to design choices. We
argue that promoting diversity among samples is not essential; what matters is
to select samples that maximise diversity in model responses. Our
method, Diversifying Sample Condensation (DISCO), selects the top-k
samples with the greatest model disagreements. This uses greedy, sample-wise
statistics rather than global clustering. The approach is conceptually simpler.
From a theoretical view, inter-model disagreement provides an
information-theoretically optimal rule for such greedy selection.
DISCO shows empirical gains over prior methods, achieving
state-of-the-art results in performance prediction across MMLU, Hellaswag,
Winogrande, and ARC. Code is available here:
https://github.com/arubique/disco-public.