MMLU-Pro: Un punto de referencia más robusto y desafiante para la comprensión del lenguaje multitareaMMLU-Pro: A More Robust and Challenging Multi-Task Language
Understanding Benchmark
En la era de los modelos de lenguaje a gran escala, los puntos de referencia como el Massive Multitask Language Understanding (MMLU) han sido fundamentales para impulsar los límites de lo que la IA puede lograr en la comprensión y el razonamiento del lenguaje en diversos dominios. Sin embargo, a medida que los modelos continúan mejorando, su rendimiento en estos puntos de referencia ha comenzado a estancarse, lo que dificulta cada vez más discernir las diferencias en las capacidades de los modelos. Este artículo presenta MMLU-Pro, un conjunto de datos mejorado diseñado para extender el punto de referencia MMLU, principalmente basado en conocimientos, mediante la integración de preguntas más desafiantes centradas en el razonamiento y la expansión del conjunto de opciones de cuatro a diez. Además, MMLU-Pro elimina las preguntas triviales y ruidosas presentes en MMLU. Nuestros resultados experimentales muestran que MMLU-Pro no solo eleva el desafío, causando una caída significativa en la precisión del 16% al 33% en comparación con MMLU, sino que también demuestra una mayor estabilidad bajo diferentes indicaciones. Con 24 estilos de indicaciones probados, la sensibilidad de las puntuaciones de los modelos a las variaciones de las indicaciones disminuyó del 4-5% en MMLU a solo el 2% en MMLU-Pro. Además, encontramos que los modelos que utilizan el razonamiento en cadena de pensamiento (Chain of Thought, CoT) lograron un mejor rendimiento en MMLU-Pro en comparación con las respuestas directas, lo que contrasta marcadamente con los hallazgos en el MMLU original, lo que indica que MMLU-Pro incluye preguntas de razonamiento más complejas. Nuestras evaluaciones confirman que MMLU-Pro es un punto de referencia más discriminativo para rastrear mejor el progreso en el campo.