La correspondencia de respuestas supera a las preguntas de opción múltiple en la evaluación de modelos de lenguaje.
Answer Matching Outperforms Multiple Choice for Language Model Evaluation
July 3, 2025
Autores: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
cs.AI
Resumen
Los benchmarks de opción múltiple han sido durante mucho tiempo el caballo de batalla de la evaluación de modelos de lenguaje, ya que calificar opciones múltiples es objetivo y fácil de automatizar. Sin embargo, demostramos que las preguntas de opción múltiple de benchmarks populares a menudo pueden responderse sin siquiera ver la pregunta. Estos atajos surgen de una limitación fundamental de la evaluación discriminativa que no comparten las evaluaciones de las respuestas generativas de forma libre del modelo. Hasta hace poco, parecía no haber una alternativa viable y escalable a la opción múltiple, pero demostramos que esto ha cambiado. Consideramos la evaluación generativa a través de lo que llamamos emparejamiento de respuestas: se le da al modelo candidato la pregunta sin las opciones, se le pide que genere una respuesta de forma libre, y luego se utiliza un modelo de lenguaje moderno con la respuesta de referencia para determinar si la respuesta coincide con la referencia. Para comparar la validez de diferentes estrategias de evaluación, anotamos MMLU-Pro y GPQA-Diamond para obtener datos de calificación humana y medimos la concordancia de cada enfoque de evaluación. Encontramos que el emparejamiento de respuestas utilizando modelos recientes—incluso los pequeños—alcanza una concordancia casi perfecta, en el rango de la concordancia entre anotadores. En contraste, tanto la evaluación de opción múltiple como el uso de LLM-como-juez sin respuestas de referencia se alinean pobremente con la calificación humana. Mejorar las evaluaciones mediante el emparejamiento de respuestas no es solo una preocupación conceptual: las clasificaciones de varios modelos cambian significativamente al evaluar sus respuestas de forma libre con emparejamiento de respuestas. A la luz de estos hallazgos, discutimos cómo mover el ecosistema de evaluación de la opción múltiple al emparejamiento de respuestas.
English
Multiple choice benchmarks have long been the workhorse of language model
evaluation because grading multiple choice is objective and easy to automate.
However, we show multiple choice questions from popular benchmarks can often be
answered without even seeing the question. These shortcuts arise from a
fundamental limitation of discriminative evaluation not shared by evaluations
of the model's free-form, generative answers. Until recently, there appeared to
be no viable, scalable alternative to multiple choice--but, we show that this
has changed. We consider generative evaluation via what we call answer
matching: Give the candidate model the question without the options, have it
generate a free-form response, then use a modern language model with the
reference answer to determine if the response matches the reference. To compare
the validity of different evaluation strategies, we annotate MMLU-Pro and
GPQA-Diamond to obtain human grading data, and measure the agreement of each
evaluation approach. We find answer matching using recent models--even small
ones--achieves near-perfect agreement, in the range of inter-annotator
agreement. In contrast, both multiple choice evaluation and using
LLM-as-a-judge without reference answers aligns poorly with human grading.
Improving evaluations via answer matching is not merely a conceptual concern:
the rankings of several models change significantly when evaluating their
free-form responses with answer matching. In light of these findings, we
discuss how to move the evaluation ecosystem from multiple choice to answer
matching.