WiCkeD: Un método sencillo para hacer que los benchmarks de opción múltiple sean más desafiantes
WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging
February 25, 2025
Autores: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI
Resumen
Presentamos WiCkeD, un método sencillo para aumentar la complejidad de los benchmarks de opción múltiple existentes al reemplazar aleatoriamente una opción con "Ninguna de las anteriores", una técnica comúnmente utilizada en pruebas educativas. Demostramos que WiCkeD puede aplicarse automáticamente a cualquier benchmark existente, haciéndolo más desafiante. Aplicamos WiCkeD a 6 benchmarks populares y lo utilizamos para evaluar 18 modelos de lenguaje de código abierto (LLMs). El rendimiento de los modelos disminuye en promedio 12.1 puntos con respecto a las versiones originales de los conjuntos de datos. Al utilizar cadena de pensamiento (chain-of-thought) en 3 conjuntos de datos MMLU, la caída en el rendimiento para la variante WiCkeD es similar a la observada cuando se usan los LLMs directamente, lo que muestra que WiCkeD también es desafiante para modelos con capacidades de razonamiento mejoradas. WiCkeD también revela que algunos modelos son más sensibles al razonamiento adicional requerido, proporcionando información adicional en comparación con los benchmarks originales. Publicamos nuestro código y datos en https://github.com/ahmedselhady/wicked-benchmarks.
English
We introduce WiCkeD, a simple method to increase the complexity of existing
multiple-choice benchmarks by randomly replacing a choice with "None of the
above", a method often used in educational tests. We show that WiCkeD can be
automatically applied to any existing benchmark, making it more challenging. We
apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight
LLMs. The performance of the models drops 12.1 points on average with respect
to the original versions of the datasets. When using chain-of-thought on 3 MMLU
datasets, the performance drop for the WiCkeD variant is similar to the one
observed when using the LLMs directly, showing that WiCkeD is also challenging
for models with enhanced reasoning abilities. WiCkeD also uncovers that some
models are more sensitive to the extra reasoning required, providing additional
information with respect to the original benchmarks. We relase our code and
data at https://github.com/ahmedselhady/wicked-benchmarks.Summary
AI-Generated Summary