ChatPaper.aiChatPaper

La correspondance des réponses surpasse les questions à choix multiples pour l'évaluation des modèles de langage.

Answer Matching Outperforms Multiple Choice for Language Model Evaluation

July 3, 2025
papers.authors: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI

papers.abstract

Les benchmarks à choix multiples ont longtemps été l'outil de référence pour l'évaluation des modèles de langage, car la notation des questions à choix multiples est objective et facile à automatiser. Cependant, nous montrons que les questions à choix multiples issues de benchmarks populaires peuvent souvent être résolues sans même lire la question. Ces raccourcis découlent d'une limitation fondamentale de l'évaluation discriminative, qui ne s'applique pas aux évaluations des réponses génératives libres du modèle. Jusqu'à récemment, il semblait n'y avoir aucune alternative viable et évolutive aux questions à choix multiples, mais nous montrons que cela a changé. Nous envisageons l'évaluation générative via ce que nous appelons l'appariement des réponses : donner au modèle candidat la question sans les options, lui faire générer une réponse libre, puis utiliser un modèle de langage moderne avec la réponse de référence pour déterminer si la réponse correspond à la référence. Pour comparer la validité des différentes stratégies d'évaluation, nous annotons MMLU-Pro et GPQA-Diamond pour obtenir des données de notation humaine, et mesurons l'accord de chaque approche d'évaluation. Nous constatons que l'appariement des réponses utilisant des modèles récents—même de petite taille—atteint un accord quasi parfait, dans la fourchette de l'accord inter-annotateurs. En revanche, l'évaluation à choix multiples et l'utilisation d'un LLM comme juge sans réponses de référence s'alignent mal avec la notation humaine. Améliorer les évaluations via l'appariement des réponses n'est pas seulement une préoccupation conceptuelle : le classement de plusieurs modèles change significativement lorsqu'on évalue leurs réponses libres avec l'appariement des réponses. À la lumière de ces résultats, nous discutons de la manière de faire évoluer l'écosystème d'évaluation des questions à choix multiples vers l'appariement des réponses.
English
Multiple choice benchmarks have long been the workhorse of language model evaluation because grading multiple choice is objective and easy to automate. However, we show multiple choice questions from popular benchmarks can often be answered without even seeing the question. These shortcuts arise from a fundamental limitation of discriminative evaluation not shared by evaluations of the model's free-form, generative answers. Until recently, there appeared to be no viable, scalable alternative to multiple choice--but, we show that this has changed. We consider generative evaluation via what we call answer matching: Give the candidate model the question without the options, have it generate a free-form response, then use a modern language model with the reference answer to determine if the response matches the reference. To compare the validity of different evaluation strategies, we annotate MMLU-Pro and GPQA-Diamond to obtain human grading data, and measure the agreement of each evaluation approach. We find answer matching using recent models--even small ones--achieves near-perfect agreement, in the range of inter-annotator agreement. In contrast, both multiple choice evaluation and using LLM-as-a-judge without reference answers aligns poorly with human grading. Improving evaluations via answer matching is not merely a conceptual concern: the rankings of several models change significantly when evaluating their free-form responses with answer matching. In light of these findings, we discuss how to move the evaluation ecosystem from multiple choice to answer matching.
PDF82July 4, 2025