ChatPaper.aiChatPaper

Welche dieser Aussagen beschreibt die Multiple-Choice-Evaluierung mit LLMs am besten? A) Erzwungen B) Fehlerhaft C) Behebbar D) Alles oben Genannte

Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

February 19, 2025
Autoren: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber
cs.AI

Zusammenfassung

Multiple-Choice-Fragebeantwortung (MCQA) ist aufgrund ihrer Einfachheit und der menschenähnlichen Testgestaltung beliebt für die Bewertung von großen Sprachmodellen (LLMs), doch wir plädieren für eine Reform. Zunächst decken wir Schwächen im MCQA-Format auf, da es Schwierigkeiten hat: 1) Generierung/Subjektivität zu testen; 2) Anwendungsfälle von LLMs abzubilden; und 3) Wissen umfassend zu prüfen. Stattdessen befürworten wir generative Formate, die auf menschlichen Testmethoden basieren – bei denen LLMs Antworten konstruieren und erklären – und so die Bedürfnisse der Nutzer sowie das Wissen besser erfassen, während sie dennoch einfach auswertbar bleiben. Anschließend zeigen wir, dass selbst wenn MCQA ein nützliches Format ist, ihre Datensätze unter folgenden Problemen leiden: Datenlecks; Unbeantwortbarkeit; Abkürzungen; und Sättigung. Für jedes Problem bieten wir Lösungen aus dem Bildungsbereich an, wie Bewertungsraster zur Anleitung der MCQ-Erstellung; Bewertungsmethoden, um Raten einzudämmen; und Item-Response-Theorie, um schwierigere MCQs zu erstellen. Schließlich diskutieren wir LLM-Fehler in MCQA – Robustheit, Verzerrungen und unzuverlässige Erklärungen – und zeigen, wie unsere zuvor genannten Lösungen diese Probleme besser messen oder angehen. Obwohl wir MCQA nicht vollständig aufgeben müssen, ermutigen wir zu mehr Bemühungen, die Aufgabe basierend auf Bildungstests zu verfeinern und so die Bewertungen voranzutreiben.
English
Multiple choice question answering (MCQA) is popular for LLM evaluation due to its simplicity and human-like testing, but we argue for its reform. We first reveal flaws in MCQA's format, as it struggles to: 1) test generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge. We instead advocate for generative formats based on human testing-where LLMs construct and explain answers-better capturing user needs and knowledge while remaining easy to score. We then show even when MCQA is a useful format, its datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In each issue, we give fixes from education, like rubrics to guide MCQ writing; scoring methods to bridle guessing; and Item Response Theory to build harder MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful explanations-showing how our prior solutions better measure or address these issues. While we do not need to desert MCQA, we encourage more efforts in refining the task based on educational testing, advancing evaluations.
PDF32February 21, 2025