ChatPaper.aiChatPaper

MMLU-Pro: Un punto de referencia más robusto y desafiante para la comprensión del lenguaje multitarea

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

June 3, 2024
Autores: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
cs.AI

Resumen

En la era de los modelos de lenguaje a gran escala, los puntos de referencia como el Massive Multitask Language Understanding (MMLU) han sido fundamentales para impulsar los límites de lo que la IA puede lograr en la comprensión y el razonamiento del lenguaje en diversos dominios. Sin embargo, a medida que los modelos continúan mejorando, su rendimiento en estos puntos de referencia ha comenzado a estancarse, lo que dificulta cada vez más discernir las diferencias en las capacidades de los modelos. Este artículo presenta MMLU-Pro, un conjunto de datos mejorado diseñado para extender el punto de referencia MMLU, principalmente basado en conocimientos, mediante la integración de preguntas más desafiantes centradas en el razonamiento y la expansión del conjunto de opciones de cuatro a diez. Además, MMLU-Pro elimina las preguntas triviales y ruidosas presentes en MMLU. Nuestros resultados experimentales muestran que MMLU-Pro no solo eleva el desafío, causando una caída significativa en la precisión del 16% al 33% en comparación con MMLU, sino que también demuestra una mayor estabilidad bajo diferentes indicaciones. Con 24 estilos de indicaciones probados, la sensibilidad de las puntuaciones de los modelos a las variaciones de las indicaciones disminuyó del 4-5% en MMLU a solo el 2% en MMLU-Pro. Además, encontramos que los modelos que utilizan el razonamiento en cadena de pensamiento (Chain of Thought, CoT) lograron un mejor rendimiento en MMLU-Pro en comparación con las respuestas directas, lo que contrasta marcadamente con los hallazgos en el MMLU original, lo que indica que MMLU-Pro incluye preguntas de razonamiento más complejas. Nuestras evaluaciones confirman que MMLU-Pro es un punto de referencia más discriminativo para rastrear mejor el progreso en el campo.
English
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.

Summary

AI-Generated Summary

PDF473December 12, 2024