WiCkeD: Um Método Simples para Tornar os Benchmarks de Múltipla Escolha Mais Desafiadores
WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging
February 25, 2025
Autores: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI
Resumo
Apresentamos o WiCkeD, um método simples para aumentar a complexidade de benchmarks de múltipla escolha existentes, substituindo aleatoriamente uma das opções por "Nenhuma das alternativas acima", uma técnica frequentemente utilizada em testes educacionais. Demonstramos que o WiCkeD pode ser aplicado automaticamente a qualquer benchmark existente, tornando-o mais desafiador. Aplicamos o WiCkeD a 6 benchmarks populares e o utilizamos para avaliar 18 LLMs de peso aberto. O desempenho dos modelos cai, em média, 12,1 pontos em relação às versões originais dos conjuntos de dados. Ao utilizar chain-of-thought em 3 conjuntos de dados do MMLU, a queda de desempenho para a variante WiCkeD é semelhante à observada quando os LLMs são usados diretamente, mostrando que o WiCkeD também é desafiador para modelos com habilidades de raciocínio aprimoradas. O WiCkeD também revela que alguns modelos são mais sensíveis ao raciocínio adicional exigido, fornecendo informações complementares em relação aos benchmarks originais. Disponibilizamos nosso código e dados em https://github.com/ahmedselhady/wicked-benchmarks.
English
We introduce WiCkeD, a simple method to increase the complexity of existing
multiple-choice benchmarks by randomly replacing a choice with "None of the
above", a method often used in educational tests. We show that WiCkeD can be
automatically applied to any existing benchmark, making it more challenging. We
apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight
LLMs. The performance of the models drops 12.1 points on average with respect
to the original versions of the datasets. When using chain-of-thought on 3 MMLU
datasets, the performance drop for the WiCkeD variant is similar to the one
observed when using the LLMs directly, showing that WiCkeD is also challenging
for models with enhanced reasoning abilities. WiCkeD also uncovers that some
models are more sensitive to the extra reasoning required, providing additional
information with respect to the original benchmarks. We relase our code and
data at https://github.com/ahmedselhady/wicked-benchmarks.Summary
AI-Generated Summary