Laquelle de ces options décrit le mieux l'évaluation à choix multiples avec les LLM ? A) Imposée B) Défectueuse C) Réparable D) Toutes les réponses ci-dessus
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above
February 19, 2025
Auteurs: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber
cs.AI
Résumé
Le questionnement à choix multiples (MCQA) est populaire pour l'évaluation des LLM en raison de sa simplicité et de son aspect proche des tests humains, mais nous plaidons pour sa réforme. Nous révélons d'abord les défauts du format MCQA, qui peine à : 1) tester la génération et la subjectivité ; 2) correspondre aux cas d'utilisation des LLM ; et 3) évaluer pleinement les connaissances. Nous préconisons plutôt des formats génératifs inspirés des tests humains, où les LLM construisent et expliquent leurs réponses, captant mieux les besoins des utilisateurs et leurs connaissances tout en restant faciles à noter. Nous montrons ensuite que même lorsque le MCQA est un format utile, ses ensembles de données souffrent de : fuites d'informations ; questions sans réponse ; raccourcis ; et saturation. Pour chaque problème, nous proposons des solutions issues de l'éducation, comme des grilles d'évaluation pour guider la rédaction des QCM, des méthodes de notation pour limiter les conjectures, et la théorie de réponse à l'item pour créer des QCM plus difficiles. Enfin, nous discutons des erreurs des LLM dans le MCQA—robustesse, biais et explications infidèles—en montrant comment nos solutions précédentes mesurent ou traitent mieux ces problèmes. Bien que nous n'ayons pas besoin d'abandonner le MCQA, nous encourageons davantage d'efforts pour affiner cette tâche en s'appuyant sur les tests éducatifs, afin de faire progresser les évaluations.
English
Multiple choice question answering (MCQA) is popular for LLM evaluation due
to its simplicity and human-like testing, but we argue for its reform. We first
reveal flaws in MCQA's format, as it struggles to: 1) test
generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge.
We instead advocate for generative formats based on human testing-where LLMs
construct and explain answers-better capturing user needs and knowledge while
remaining easy to score. We then show even when MCQA is a useful format, its
datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In
each issue, we give fixes from education, like rubrics to guide MCQ writing;
scoring methods to bridle guessing; and Item Response Theory to build harder
MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful
explanations-showing how our prior solutions better measure or address these
issues. While we do not need to desert MCQA, we encourage more efforts in
refining the task based on educational testing, advancing evaluations.Summary
AI-Generated Summary