ChatPaper.aiChatPaper

Quale di queste opzioni descrive meglio la valutazione a scelta multipla con LLM? A) Forzata B) Imperfetta C) Risolvibile D) Tutte le precedenti

Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

February 19, 2025
Autori: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber
cs.AI

Abstract

Il questionario a scelta multipla (MCQA) è popolare per la valutazione dei modelli linguistici di grandi dimensioni (LLM) grazie alla sua semplicità e alla somiglianza con i test umani, ma sosteniamo la necessità di una sua riforma. Iniziamo evidenziando i difetti del formato MCQA, poiché fatica a: 1) testare la generazione/soggettività; 2) allinearsi ai casi d'uso degli LLM; e 3) valutare completamente la conoscenza. Proponiamo invece formati generativi basati su test umani, in cui gli LLM costruiscono e spiegano le risposte, catturando meglio le esigenze degli utenti e la conoscenza, pur rimanendo facili da valutare. Successivamente, dimostriamo che anche quando il MCQA è un formato utile, i suoi dataset soffrono di: perdita di dati; impossibilità di risposta; scorciatoie; e saturazione. Per ciascun problema, offriamo soluzioni tratte dal campo dell'educazione, come rubriche per guidare la scrittura delle domande a scelta multipla; metodi di valutazione per limitare le ipotesi casuali; e la Teoria della Risposta all'Item per costruire domande più difficili. Infine, discutiamo gli errori degli LLM nel MCQA—robustezza, pregiudizi e spiegazioni infedeli—mostrando come le nostre soluzioni precedenti misurino o affrontino meglio questi problemi. Sebbene non sia necessario abbandonare il MCQA, incoraggiamo maggiori sforzi nel perfezionare il compito basandosi sui test educativi, avanzando così le valutazioni.
English
Multiple choice question answering (MCQA) is popular for LLM evaluation due to its simplicity and human-like testing, but we argue for its reform. We first reveal flaws in MCQA's format, as it struggles to: 1) test generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge. We instead advocate for generative formats based on human testing-where LLMs construct and explain answers-better capturing user needs and knowledge while remaining easy to score. We then show even when MCQA is a useful format, its datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In each issue, we give fixes from education, like rubrics to guide MCQ writing; scoring methods to bridle guessing; and Item Response Theory to build harder MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful explanations-showing how our prior solutions better measure or address these issues. While we do not need to desert MCQA, we encourage more efforts in refining the task based on educational testing, advancing evaluations.

Summary

AI-Generated Summary

PDF22February 21, 2025