Quale di queste opzioni descrive meglio la valutazione a scelta multipla con LLM? A) Forzata B) Imperfetta C) Risolvibile D) Tutte le precedenti
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above
February 19, 2025
Autori: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber
cs.AI
Abstract
Il questionario a scelta multipla (MCQA) è popolare per la valutazione dei modelli linguistici di grandi dimensioni (LLM) grazie alla sua semplicità e alla somiglianza con i test umani, ma sosteniamo la necessità di una sua riforma. Iniziamo evidenziando i difetti del formato MCQA, poiché fatica a: 1) testare la generazione/soggettività; 2) allinearsi ai casi d'uso degli LLM; e 3) valutare completamente la conoscenza. Proponiamo invece formati generativi basati su test umani, in cui gli LLM costruiscono e spiegano le risposte, catturando meglio le esigenze degli utenti e la conoscenza, pur rimanendo facili da valutare. Successivamente, dimostriamo che anche quando il MCQA è un formato utile, i suoi dataset soffrono di: perdita di dati; impossibilità di risposta; scorciatoie; e saturazione. Per ciascun problema, offriamo soluzioni tratte dal campo dell'educazione, come rubriche per guidare la scrittura delle domande a scelta multipla; metodi di valutazione per limitare le ipotesi casuali; e la Teoria della Risposta all'Item per costruire domande più difficili. Infine, discutiamo gli errori degli LLM nel MCQA—robustezza, pregiudizi e spiegazioni infedeli—mostrando come le nostre soluzioni precedenti misurino o affrontino meglio questi problemi. Sebbene non sia necessario abbandonare il MCQA, incoraggiamo maggiori sforzi nel perfezionare il compito basandosi sui test educativi, avanzando così le valutazioni.
English
Multiple choice question answering (MCQA) is popular for LLM evaluation due
to its simplicity and human-like testing, but we argue for its reform. We first
reveal flaws in MCQA's format, as it struggles to: 1) test
generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge.
We instead advocate for generative formats based on human testing-where LLMs
construct and explain answers-better capturing user needs and knowledge while
remaining easy to score. We then show even when MCQA is a useful format, its
datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In
each issue, we give fixes from education, like rubrics to guide MCQ writing;
scoring methods to bridle guessing; and Item Response Theory to build harder
MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful
explanations-showing how our prior solutions better measure or address these
issues. While we do not need to desert MCQA, we encourage more efforts in
refining the task based on educational testing, advancing evaluations.Summary
AI-Generated Summary