언어 모델 평가에서 답변 매칭이 객관식 평가를 능가한다
Answer Matching Outperforms Multiple Choice for Language Model Evaluation
July 3, 2025
저자: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI
초록
다중 선택형 벤치마크는 채점이 객관적이고 자동화가 용이하다는 이유로 오랫동안 언어 모델 평가의 주력 도구로 사용되어 왔습니다. 그러나 우리는 인기 있는 벤치마크의 다중 선택형 문제들이 종종 질문을 보지 않고도 답할 수 있다는 점을 보여줍니다. 이러한 단점은 모델의 자유 형식 생성 답변 평가와는 달리 판별적 평가의 근본적인 한계에서 비롯됩니다. 최근까지는 다중 선택형 평가에 대한 실용적이고 확장 가능한 대안이 없어 보였지만, 우리는 이 상황이 바뀌었음을 보여줍니다. 우리는 '답변 매칭'이라는 방법을 통해 생성적 평가를 고려합니다: 후보 모델에 선택지를 제외한 질문을 제공하고, 자유 형식의 답변을 생성하도록 한 다음, 참조 답변과 함께 최신 언어 모델을 사용하여 생성된 답변이 참조 답변과 일치하는지 판단합니다. 다양한 평가 전략의 타당성을 비교하기 위해, 우리는 MMLU-Pro와 GPQA-Diamond에 주석을 달아 인간 평가 데이터를 수집하고 각 평가 접근법의 일치도를 측정했습니다. 우리는 최신 모델(심지어 작은 모델도)을 사용한 답변 매칭이 평가자 간 일치도 수준에 가까운 거의 완벽한 일치를 달성한다는 것을 발견했습니다. 반면, 다중 선택형 평가와 참조 답변 없이 LLM-as-a-judge를 사용하는 방법은 인간 평가와 잘 맞지 않았습니다. 답변 매칭을 통한 평가 개선은 단순히 개념적인 문제가 아닙니다: 여러 모델의 순위는 자유 형식 답변을 답변 매칭으로 평가할 때 상당히 달라집니다. 이러한 발견을 바탕으로, 우리는 평가 생태계를 다중 선택형에서 답변 매칭으로 전환하는 방법에 대해 논의합니다.
English
Multiple choice benchmarks have long been the workhorse of language model
evaluation because grading multiple choice is objective and easy to automate.
However, we show multiple choice questions from popular benchmarks can often be
answered without even seeing the question. These shortcuts arise from a
fundamental limitation of discriminative evaluation not shared by evaluations
of the model's free-form, generative answers. Until recently, there appeared to
be no viable, scalable alternative to multiple choice--but, we show that this
has changed. We consider generative evaluation via what we call answer
matching: Give the candidate model the question without the options, have it
generate a free-form response, then use a modern language model with the
reference answer to determine if the response matches the reference. To compare
the validity of different evaluation strategies, we annotate MMLU-Pro and
GPQA-Diamond to obtain human grading data, and measure the agreement of each
evaluation approach. We find answer matching using recent models--even small
ones--achieves near-perfect agreement, in the range of inter-annotator
agreement. In contrast, both multiple choice evaluation and using
LLM-as-a-judge without reference answers aligns poorly with human grading.
Improving evaluations via answer matching is not merely a conceptual concern:
the rankings of several models change significantly when evaluating their
free-form responses with answer matching. In light of these findings, we
discuss how to move the evaluation ecosystem from multiple choice to answer
matching.