WiCkeD: Un Metodo Semplice per Rendere i Benchmark a Scelta Multipla Più Sfidanti
WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging
February 25, 2025
Autori: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI
Abstract
Introduciamo WiCkeD, un metodo semplice per aumentare la complessità dei benchmark a scelta multipla esistenti sostituendo casualmente una scelta con "Nessuna delle precedenti", un metodo spesso utilizzato nei test educativi. Dimostriamo che WiCkeD può essere applicato automaticamente a qualsiasi benchmark esistente, rendendolo più impegnativo. Applichiamo WiCkeD a 6 benchmark popolari e lo utilizziamo per valutare 18 LLM open-weight. Le prestazioni dei modelli diminuiscono in media di 12,1 punti rispetto alle versioni originali dei dataset. Utilizzando la catena di pensiero su 3 dataset MMLU, la diminuzione delle prestazioni per la variante WiCkeD è simile a quella osservata quando si utilizzano direttamente gli LLM, dimostrando che WiCkeD è altrettanto impegnativo per i modelli con capacità di ragionamento potenziate. WiCkeD mette anche in luce che alcuni modelli sono più sensibili al ragionamento extra richiesto, fornendo informazioni aggiuntive rispetto ai benchmark originali. Rilasciamo il nostro codice e i dati su https://github.com/ahmedselhady/wicked-benchmarks.
English
We introduce WiCkeD, a simple method to increase the complexity of existing
multiple-choice benchmarks by randomly replacing a choice with "None of the
above", a method often used in educational tests. We show that WiCkeD can be
automatically applied to any existing benchmark, making it more challenging. We
apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight
LLMs. The performance of the models drops 12.1 points on average with respect
to the original versions of the datasets. When using chain-of-thought on 3 MMLU
datasets, the performance drop for the WiCkeD variant is similar to the one
observed when using the LLMs directly, showing that WiCkeD is also challenging
for models with enhanced reasoning abilities. WiCkeD also uncovers that some
models are more sensitive to the extra reasoning required, providing additional
information with respect to the original benchmarks. We relase our code and
data at https://github.com/ahmedselhady/wicked-benchmarks.Summary
AI-Generated Summary