Welke van deze opties beschrijft het beste meerkeuzeevaluatie met LLM's? A) Gedwongen B) Gebrekkig C) Herstelbaar D) Al het bovenstaande
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above
February 19, 2025
Auteurs: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber
cs.AI
Samenvatting
Meerkeuzevraagbeantwoording (MCQA) is populair voor de evaluatie van LLM's vanwege de eenvoud en mensachtige testmethode, maar wij pleiten voor hervorming ervan. We onthullen eerst tekortkomingen in het MCQA-formaat, omdat het moeite heeft met: 1) het testen van generatie/subjectiviteit; 2) het matchen van LLM-gebruiksscenario's; en 3) het volledig testen van kennis. In plaats daarvan bepleiten we generatieve formaten gebaseerd op menselijke testmethoden, waarbij LLM's antwoorden construeren en uitleggen, wat beter aansluit bij gebruikersbehoeften en kennis, terwijl het gemakkelijk te scoren blijft. Vervolgens tonen we aan dat zelfs wanneer MCQA een nuttig formaat is, de datasets problemen hebben zoals: lekken; onbeantwoordbaarheid; shortcuts; en verzadiging. Voor elk probleem bieden we oplossingen uit het onderwijs, zoals rubrics om het schrijven van MCQs te begeleiden; scoringsmethoden om gokken in te perken; en Item Response Theory om moeilijkere MCQs te maken. Ten slotte bespreken we LLM-fouten in MCQA, zoals robuustheid, biases en onbetrouwbare verklaringen, en laten we zien hoe onze eerdere oplossingen deze problemen beter meten of aanpakken. Hoewel we MCQA niet hoeven te verlaten, moedigen we meer inspanningen aan om de taak te verfijnen op basis van educatieve testmethoden, waardoor evaluaties worden verbeterd.
English
Multiple choice question answering (MCQA) is popular for LLM evaluation due
to its simplicity and human-like testing, but we argue for its reform. We first
reveal flaws in MCQA's format, as it struggles to: 1) test
generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge.
We instead advocate for generative formats based on human testing-where LLMs
construct and explain answers-better capturing user needs and knowledge while
remaining easy to score. We then show even when MCQA is a useful format, its
datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In
each issue, we give fixes from education, like rubrics to guide MCQ writing;
scoring methods to bridle guessing; and Item Response Theory to build harder
MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful
explanations-showing how our prior solutions better measure or address these
issues. While we do not need to desert MCQA, we encourage more efforts in
refining the task based on educational testing, advancing evaluations.Summary
AI-Generated Summary