ChatPaper.aiChatPaper

WiCkeD : Une méthode simple pour rendre les benchmarks à choix multiples plus difficiles

WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging

February 25, 2025
Auteurs: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI

Résumé

Nous présentons WiCkeD, une méthode simple pour augmenter la complexité des benchmarks existants à choix multiples en remplaçant aléatoirement une option par "Aucune des réponses ci-dessus", une technique couramment utilisée dans les tests éducatifs. Nous démontrons que WiCkeD peut être appliqué automatiquement à n'importe quel benchmark existant, le rendant ainsi plus difficile. Nous appliquons WiCkeD à 6 benchmarks populaires et l'utilisons pour évaluer 18 LLM open-weight. La performance des modèles chute en moyenne de 12,1 points par rapport aux versions originales des jeux de données. Lorsque nous utilisons le raisonnement en chaîne sur 3 jeux de données MMLU, la baisse de performance pour la variante WiCkeD est similaire à celle observée lors de l'utilisation directe des LLM, montrant que WiCkeD est également difficile pour les modèles dotés de capacités de raisonnement améliorées. WiCkeD révèle également que certains modèles sont plus sensibles au raisonnement supplémentaire requis, fournissant des informations complémentaires par rapport aux benchmarks originaux. Nous mettons à disposition notre code et nos données à l'adresse https://github.com/ahmedselhady/wicked-benchmarks.
English
We introduce WiCkeD, a simple method to increase the complexity of existing multiple-choice benchmarks by randomly replacing a choice with "None of the above", a method often used in educational tests. We show that WiCkeD can be automatically applied to any existing benchmark, making it more challenging. We apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight LLMs. The performance of the models drops 12.1 points on average with respect to the original versions of the datasets. When using chain-of-thought on 3 MMLU datasets, the performance drop for the WiCkeD variant is similar to the one observed when using the LLMs directly, showing that WiCkeD is also challenging for models with enhanced reasoning abilities. WiCkeD also uncovers that some models are more sensitive to the extra reasoning required, providing additional information with respect to the original benchmarks. We relase our code and data at https://github.com/ahmedselhady/wicked-benchmarks.

Summary

AI-Generated Summary

PDF22February 26, 2025