ChatPaper.aiChatPaper

WiCkeD: Een eenvoudige methode om multiple choice-benchmarks uitdagender te maken

WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging

February 25, 2025
Auteurs: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI

Samenvatting

We introduceren WiCkeD, een eenvoudige methode om de complexiteit van bestaande meerkeuzebenchmarks te verhogen door willekeurig een keuze te vervangen door "Geen van de bovenstaande", een methode die vaak wordt gebruikt in educatieve tests. We laten zien dat WiCkeD automatisch kan worden toegepast op elke bestaande benchmark, waardoor deze uitdagender wordt. We passen WiCkeD toe op 6 populaire benchmarks en gebruiken het om 18 open-weight LLM's te evalueren. De prestaties van de modellen dalen gemiddeld met 12,1 punten ten opzichte van de originele versies van de datasets. Wanneer chain-of-thought wordt gebruikt op 3 MMLU-datasets, is de prestatievermindering voor de WiCkeD-variant vergelijkbaar met die waargenomen bij het direct gebruiken van de LLM's, wat aantoont dat WiCkeD ook uitdagend is voor modellen met verbeterde redeneervaardigheden. WiCkeD onthult ook dat sommige modellen gevoeliger zijn voor het extra redeneren dat vereist is, wat aanvullende informatie oplevert ten opzichte van de originele benchmarks. We publiceren onze code en data op https://github.com/ahmedselhady/wicked-benchmarks.
English
We introduce WiCkeD, a simple method to increase the complexity of existing multiple-choice benchmarks by randomly replacing a choice with "None of the above", a method often used in educational tests. We show that WiCkeD can be automatically applied to any existing benchmark, making it more challenging. We apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight LLMs. The performance of the models drops 12.1 points on average with respect to the original versions of the datasets. When using chain-of-thought on 3 MMLU datasets, the performance drop for the WiCkeD variant is similar to the one observed when using the LLMs directly, showing that WiCkeD is also challenging for models with enhanced reasoning abilities. WiCkeD also uncovers that some models are more sensitive to the extra reasoning required, providing additional information with respect to the original benchmarks. We relase our code and data at https://github.com/ahmedselhady/wicked-benchmarks.

Summary

AI-Generated Summary

PDF22February 26, 2025