ChatPaper.aiChatPaper

Welke van deze opties beschrijft het beste meerkeuzeevaluatie met LLM's? A) Gedwongen B) Gebrekkig C) Herstelbaar D) Al het bovenstaande

Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

February 19, 2025
Auteurs: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber
cs.AI

Samenvatting

Meerkeuzevraagbeantwoording (MCQA) is populair voor de evaluatie van LLM's vanwege de eenvoud en mensachtige testmethode, maar wij pleiten voor hervorming ervan. We onthullen eerst tekortkomingen in het MCQA-formaat, omdat het moeite heeft met: 1) het testen van generatie/subjectiviteit; 2) het matchen van LLM-gebruiksscenario's; en 3) het volledig testen van kennis. In plaats daarvan bepleiten we generatieve formaten gebaseerd op menselijke testmethoden, waarbij LLM's antwoorden construeren en uitleggen, wat beter aansluit bij gebruikersbehoeften en kennis, terwijl het gemakkelijk te scoren blijft. Vervolgens tonen we aan dat zelfs wanneer MCQA een nuttig formaat is, de datasets problemen hebben zoals: lekken; onbeantwoordbaarheid; shortcuts; en verzadiging. Voor elk probleem bieden we oplossingen uit het onderwijs, zoals rubrics om het schrijven van MCQs te begeleiden; scoringsmethoden om gokken in te perken; en Item Response Theory om moeilijkere MCQs te maken. Ten slotte bespreken we LLM-fouten in MCQA, zoals robuustheid, biases en onbetrouwbare verklaringen, en laten we zien hoe onze eerdere oplossingen deze problemen beter meten of aanpakken. Hoewel we MCQA niet hoeven te verlaten, moedigen we meer inspanningen aan om de taak te verfijnen op basis van educatieve testmethoden, waardoor evaluaties worden verbeterd.
English
Multiple choice question answering (MCQA) is popular for LLM evaluation due to its simplicity and human-like testing, but we argue for its reform. We first reveal flaws in MCQA's format, as it struggles to: 1) test generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge. We instead advocate for generative formats based on human testing-where LLMs construct and explain answers-better capturing user needs and knowledge while remaining easy to score. We then show even when MCQA is a useful format, its datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In each issue, we give fixes from education, like rubrics to guide MCQ writing; scoring methods to bridle guessing; and Item Response Theory to build harder MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful explanations-showing how our prior solutions better measure or address these issues. While we do not need to desert MCQA, we encourage more efforts in refining the task based on educational testing, advancing evaluations.

Summary

AI-Generated Summary

PDF22February 21, 2025