WiCkeD : Une méthode simple pour rendre les benchmarks à choix multiples plus difficiles
WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging
February 25, 2025
Auteurs: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI
Résumé
Nous présentons WiCkeD, une méthode simple pour augmenter la complexité des benchmarks existants à choix multiples en remplaçant aléatoirement une option par "Aucune des réponses ci-dessus", une technique couramment utilisée dans les tests éducatifs. Nous démontrons que WiCkeD peut être appliqué automatiquement à n'importe quel benchmark existant, le rendant ainsi plus difficile. Nous appliquons WiCkeD à 6 benchmarks populaires et l'utilisons pour évaluer 18 LLM open-weight. La performance des modèles chute en moyenne de 12,1 points par rapport aux versions originales des jeux de données. Lorsque nous utilisons le raisonnement en chaîne sur 3 jeux de données MMLU, la baisse de performance pour la variante WiCkeD est similaire à celle observée lors de l'utilisation directe des LLM, montrant que WiCkeD est également difficile pour les modèles dotés de capacités de raisonnement améliorées. WiCkeD révèle également que certains modèles sont plus sensibles au raisonnement supplémentaire requis, fournissant des informations complémentaires par rapport aux benchmarks originaux. Nous mettons à disposition notre code et nos données à l'adresse https://github.com/ahmedselhady/wicked-benchmarks.
English
We introduce WiCkeD, a simple method to increase the complexity of existing
multiple-choice benchmarks by randomly replacing a choice with "None of the
above", a method often used in educational tests. We show that WiCkeD can be
automatically applied to any existing benchmark, making it more challenging. We
apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight
LLMs. The performance of the models drops 12.1 points on average with respect
to the original versions of the datasets. When using chain-of-thought on 3 MMLU
datasets, the performance drop for the WiCkeD variant is similar to the one
observed when using the LLMs directly, showing that WiCkeD is also challenging
for models with enhanced reasoning abilities. WiCkeD also uncovers that some
models are more sensitive to the extra reasoning required, providing additional
information with respect to the original benchmarks. We relase our code and
data at https://github.com/ahmedselhady/wicked-benchmarks.Summary
AI-Generated Summary