DISCO: Diversificación de la Condensación de Muestras para la Evaluación Eficiente de Modelos
DISCO: Diversifying Sample Condensation for Efficient Model Evaluation
October 9, 2025
Autores: Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh
cs.AI
Resumen
La evaluación de los modelos modernos de aprendizaje automático se ha vuelto prohibitivamente costosa.
Puntos de referencia como LMMs-Eval y HELM requieren miles de horas de GPU por modelo.
La evaluación costosa reduce la inclusividad, ralentiza el ciclo de innovación y empeora el impacto ambiental.
El enfoque típico sigue dos pasos. Primero, seleccionar un subconjunto de datos de referencia. Segundo, entrenar un mapeo desde la precisión en este subconjunto hasta el resultado final de la prueba.
El inconveniente es que la selección de referencia depende de la agrupación, que puede ser compleja y sensible a las decisiones de diseño.
Argumentamos que promover la diversidad entre las muestras no es esencial; lo que importa es seleccionar muestras que maximicen la diversidad en las respuestas del modelo.
Nuestro método, Condensación de Muestras Diversificadas (DISCO), selecciona las k muestras con mayores desacuerdos entre los modelos.
Esto utiliza estadísticas codiciosas y por muestra en lugar de agrupación global.
El enfoque es conceptualmente más simple.
Desde un punto de vista teórico, el desacuerdo entre modelos proporciona una regla óptima en términos de teoría de la información para dicha selección codiciosa.
DISCO muestra mejoras empíricas sobre métodos anteriores, logrando resultados de vanguardia en la predicción de rendimiento en MMLU, Hellaswag, Winogrande y ARC.
El código está disponible aquí: https://github.com/arubique/disco-public.
English
Evaluating modern machine learning models has become prohibitively expensive.
Benchmarks such as LMMs-Eval and HELM demand thousands of GPU hours per model.
Costly evaluation reduces inclusivity, slows the cycle of innovation, and
worsens environmental impact. The typical approach follows two steps. First,
select an anchor subset of data. Second, train a mapping from the accuracy on
this subset to the final test result. The drawback is that anchor selection
depends on clustering, which can be complex and sensitive to design choices. We
argue that promoting diversity among samples is not essential; what matters is
to select samples that maximise diversity in model responses. Our
method, Diversifying Sample Condensation (DISCO), selects the top-k
samples with the greatest model disagreements. This uses greedy, sample-wise
statistics rather than global clustering. The approach is conceptually simpler.
From a theoretical view, inter-model disagreement provides an
information-theoretically optimal rule for such greedy selection.
DISCO shows empirical gains over prior methods, achieving
state-of-the-art results in performance prediction across MMLU, Hellaswag,
Winogrande, and ARC. Code is available here:
https://github.com/arubique/disco-public.