言語モデル評価における解答照合は多肢選択を上回る
Answer Matching Outperforms Multiple Choice for Language Model Evaluation
July 3, 2025
著者: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI
要旨
多肢選択式のベンチマークは、長らく言語モデルの評価において主力を担ってきました。その理由は、多肢選択式の採点が客観的で自動化が容易であるためです。しかし、我々は、人気のあるベンチマークからの多肢選択式問題が、問題文を見ずに解答できる場合が多いことを示します。これらのショートカットは、モデルの自由形式の生成的回答を評価する方法とは異なり、識別的評価の根本的な限界に起因しています。最近まで、多肢選択式に代わる実行可能でスケーラブルな代替手段は存在しないように見えましたが、我々はこの状況が変化したことを示します。我々は、回答マッチングと呼ばれる方法による生成的評価を検討します。具体的には、候補モデルに選択肢なしで問題を与え、自由形式の回答を生成させ、その後、参照回答を用いた最新の言語モデルを使用して、その回答が参照回答と一致するかどうかを判定します。異なる評価戦略の妥当性を比較するために、MMLU-ProとGPQA-Diamondにアノテーションを施し、人間による採点データを取得し、各評価アプローチの一致度を測定します。我々は、最近のモデル(小規模なモデルでさえも)を使用した回答マッチングが、アノテーター間の一致度に近い完璧な一致を達成することを発見しました。対照的に、多肢選択式評価や参照回答なしでのLLM-as-a-judgeの使用は、人間の採点とほとんど一致しません。回答マッチングによる評価の改善は、単なる概念的な懸念ではありません。自由形式の回答を回答マッチングで評価すると、いくつかのモデルのランキングが大きく変化します。これらの発見を踏まえ、我々は評価エコシステムを多肢選択式から回答マッチングに移行する方法について議論します。
English
Multiple choice benchmarks have long been the workhorse of language model
evaluation because grading multiple choice is objective and easy to automate.
However, we show multiple choice questions from popular benchmarks can often be
answered without even seeing the question. These shortcuts arise from a
fundamental limitation of discriminative evaluation not shared by evaluations
of the model's free-form, generative answers. Until recently, there appeared to
be no viable, scalable alternative to multiple choice--but, we show that this
has changed. We consider generative evaluation via what we call answer
matching: Give the candidate model the question without the options, have it
generate a free-form response, then use a modern language model with the
reference answer to determine if the response matches the reference. To compare
the validity of different evaluation strategies, we annotate MMLU-Pro and
GPQA-Diamond to obtain human grading data, and measure the agreement of each
evaluation approach. We find answer matching using recent models--even small
ones--achieves near-perfect agreement, in the range of inter-annotator
agreement. In contrast, both multiple choice evaluation and using
LLM-as-a-judge without reference answers aligns poorly with human grading.
Improving evaluations via answer matching is not merely a conceptual concern:
the rankings of several models change significantly when evaluating their
free-form responses with answer matching. In light of these findings, we
discuss how to move the evaluation ecosystem from multiple choice to answer
matching.