WiCkeD: 다중 선택형 벤치마크를 더 도전적으로 만드는 간단한 방법
WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging
February 25, 2025
저자: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI
초록
기존의 객관식 벤치마크의 복잡성을 높이기 위한 간단한 방법인 WiCkeD를 소개합니다. 이 방법은 교육 시험에서 자주 사용되는 "위의 어느 것도 아님"이라는 선택지를 무작위로 대체하는 방식입니다. WiCkeD는 기존의 어떤 벤치마크에도 자동으로 적용할 수 있어 더욱 도전적인 과제로 만들 수 있음을 보여줍니다. WiCkeD를 6개의 인기 있는 벤치마크에 적용하고, 이를 사용하여 18개의 오픈 가중치 대형 언어 모델(LLM)을 평가했습니다. 모델의 성능은 데이터셋의 원본 버전에 비해 평균 12.1점 하락했습니다. 3개의 MMLU 데이터셋에서 사고 연쇄(chain-of-thought)를 사용할 때, WiCkeD 변형에서의 성능 하락은 LLM을 직접 사용할 때 관찰된 것과 유사했으며, 이는 WiCkeD가 강화된 추론 능력을 가진 모델에게도 도전적임을 보여줍니다. 또한 WiCkeD는 일부 모델이 추가적인 추론에 더 민감하다는 점을 밝혀내어, 원본 벤치마크에 비해 추가적인 정보를 제공합니다. 코드와 데이터는 https://github.com/ahmedselhady/wicked-benchmarks에서 공개합니다.
English
We introduce WiCkeD, a simple method to increase the complexity of existing
multiple-choice benchmarks by randomly replacing a choice with "None of the
above", a method often used in educational tests. We show that WiCkeD can be
automatically applied to any existing benchmark, making it more challenging. We
apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight
LLMs. The performance of the models drops 12.1 points on average with respect
to the original versions of the datasets. When using chain-of-thought on 3 MMLU
datasets, the performance drop for the WiCkeD variant is similar to the one
observed when using the LLMs directly, showing that WiCkeD is also challenging
for models with enhanced reasoning abilities. WiCkeD also uncovers that some
models are more sensitive to the extra reasoning required, providing additional
information with respect to the original benchmarks. We relase our code and
data at https://github.com/ahmedselhady/wicked-benchmarks.Summary
AI-Generated Summary