ChatPaper.aiChatPaper

WiCkeD: Eine einfache Methode, um Multiple-Choice-Benchmarks anspruchsvoller zu gestalten

WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging

February 25, 2025
Autoren: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI

Zusammenfassung

Wir stellen WiCkeD vor, eine einfache Methode, um die Komplexität bestehender Multiple-Choice-Benchmarks zu erhöhen, indem zufällig eine Antwortoption durch „Keine der oben genannten“ ersetzt wird – eine Methode, die häufig in Bildungstests verwendet wird. Wir zeigen, dass WiCkeD automatisch auf jeden bestehenden Benchmark angewendet werden kann, wodurch dieser anspruchsvoller wird. Wir wenden WiCkeD auf 6 beliebte Benchmarks an und nutzen es, um 18 Open-Weight-LLMs zu evaluieren. Die Leistung der Modelle sinkt im Durchschnitt um 12,1 Punkte im Vergleich zu den Originalversionen der Datensätze. Bei der Verwendung von Chain-of-Thought auf 3 MMLU-Datensätzen ist der Leistungsabfall für die WiCkeD-Variante ähnlich dem, der bei der direkten Verwendung der LLMs beobachtet wird, was zeigt, dass WiCkeD auch für Modelle mit verbesserten Fähigkeiten zur logischen Schlussfolgerung herausfordernd ist. WiCkeD deckt zudem auf, dass einige Modelle empfindlicher auf den zusätzlichen Denkaufwand reagieren, und liefert somit zusätzliche Informationen im Vergleich zu den ursprünglichen Benchmarks. Wir veröffentlichen unseren Code und unsere Daten unter https://github.com/ahmedselhady/wicked-benchmarks.
English
We introduce WiCkeD, a simple method to increase the complexity of existing multiple-choice benchmarks by randomly replacing a choice with "None of the above", a method often used in educational tests. We show that WiCkeD can be automatically applied to any existing benchmark, making it more challenging. We apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight LLMs. The performance of the models drops 12.1 points on average with respect to the original versions of the datasets. When using chain-of-thought on 3 MMLU datasets, the performance drop for the WiCkeD variant is similar to the one observed when using the LLMs directly, showing that WiCkeD is also challenging for models with enhanced reasoning abilities. WiCkeD also uncovers that some models are more sensitive to the extra reasoning required, providing additional information with respect to the original benchmarks. We relase our code and data at https://github.com/ahmedselhady/wicked-benchmarks.

Summary

AI-Generated Summary

PDF22February 26, 2025