WiCkeD: 多肢選択ベンチマークをより難易度の高いものにするシンプルな手法
WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging
February 25, 2025
著者: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI
要旨
WiCkeDを紹介します。これは、既存の多肢選択式ベンチマークの複雑さを増すためのシンプルな方法で、教育テストでよく使われる「どれでもない」という選択肢をランダムに追加するものです。WiCkeDは、既存のどのベンチマークにも自動的に適用でき、より挑戦的なものにすることができます。私たちはWiCkeDを6つの人気ベンチマークに適用し、18のオープンウェイトLLMを評価しました。その結果、モデルのパフォーマンスは、元のデータセットに比べて平均12.1ポイント低下しました。3つのMMLUデータセットでチェイン・オブ・ソートを使用した場合、WiCkeDバリアントのパフォーマンス低下は、LLMを直接使用した場合と同程度であり、WiCkeDが推論能力を強化したモデルにとっても挑戦的であることが示されました。WiCkeDはまた、一部のモデルが追加の推論に特に敏感であることを明らかにし、元のベンチマークに比べて追加の情報を提供します。私たちはコードとデータをhttps://github.com/ahmedselhady/wicked-benchmarksで公開しています。
English
We introduce WiCkeD, a simple method to increase the complexity of existing
multiple-choice benchmarks by randomly replacing a choice with "None of the
above", a method often used in educational tests. We show that WiCkeD can be
automatically applied to any existing benchmark, making it more challenging. We
apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight
LLMs. The performance of the models drops 12.1 points on average with respect
to the original versions of the datasets. When using chain-of-thought on 3 MMLU
datasets, the performance drop for the WiCkeD variant is similar to the one
observed when using the LLMs directly, showing that WiCkeD is also challenging
for models with enhanced reasoning abilities. WiCkeD also uncovers that some
models are more sensitive to the extra reasoning required, providing additional
information with respect to the original benchmarks. We relase our code and
data at https://github.com/ahmedselhady/wicked-benchmarks.Summary
AI-Generated Summary