¿Cuál de estas opciones describe mejor la evaluación de opción múltiple con LLM? A) Forzada B) Defectuosa C) Reparable D) Todas las anteriores
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above
February 19, 2025
Autores: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber
cs.AI
Resumen
La evaluación de respuestas de opción múltiple (MCQA, por sus siglas en inglés) es popular para la evaluación de modelos de lenguaje grandes (LLM) debido a su simplicidad y su similitud con pruebas humanas, pero argumentamos a favor de su reforma. Primero, revelamos deficiencias en el formato de MCQA, ya que tiene dificultades para: 1) evaluar la generación/subjetividad; 2) alinearse con los casos de uso de los LLM; y 3) evaluar completamente el conocimiento. En su lugar, abogamos por formatos generativos basados en pruebas humanas, donde los LLM construyen y explican respuestas, captando mejor las necesidades del usuario y el conocimiento, mientras siguen siendo fáciles de calificar. Luego, mostramos que incluso cuando MCQA es un formato útil, sus conjuntos de datos sufren de: filtración; imposibilidad de respuesta; atajos; y saturación. Para cada problema, proponemos soluciones inspiradas en la educación, como rúbricas para guiar la redacción de preguntas de opción múltiple; métodos de puntuación para controlar las conjeturas; y la Teoría de Respuesta al Ítem para construir preguntas más difíciles. Finalmente, discutimos los errores de los LLM en MCQA: robustez, sesgos y explicaciones poco fieles, mostrando cómo nuestras soluciones anteriores miden o abordan mejor estos problemas. Aunque no es necesario abandonar MCQA, fomentamos más esfuerzos para refinar la tarea basándose en pruebas educativas, avanzando así en las evaluaciones.
English
Multiple choice question answering (MCQA) is popular for LLM evaluation due
to its simplicity and human-like testing, but we argue for its reform. We first
reveal flaws in MCQA's format, as it struggles to: 1) test
generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge.
We instead advocate for generative formats based on human testing-where LLMs
construct and explain answers-better capturing user needs and knowledge while
remaining easy to score. We then show even when MCQA is a useful format, its
datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In
each issue, we give fixes from education, like rubrics to guide MCQ writing;
scoring methods to bridle guessing; and Item Response Theory to build harder
MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful
explanations-showing how our prior solutions better measure or address these
issues. While we do not need to desert MCQA, we encourage more efforts in
refining the task based on educational testing, advancing evaluations.Summary
AI-Generated Summary