ChatPaper.aiChatPaper

Qual dessas opções melhor descreve a avaliação de múltipla escolha com LLMs? A) Forçada B) Falha C) Corrigível D) Todas as anteriores

Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

February 19, 2025
Autores: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber
cs.AI

Resumo

A resposta a perguntas de múltipla escolha (MCQA) é popular para a avaliação de modelos de linguagem de grande escala (LLMs) devido à sua simplicidade e semelhança com testes humanos, mas defendemos a sua reformulação. Primeiro, revelamos falhas no formato do MCQA, pois ele tem dificuldade em: 1) testar geração/subjetividade; 2) alinhar-se com os casos de uso de LLMs; e 3) testar completamente o conhecimento. Em vez disso, defendemos formatos generativos baseados em testes humanos, onde os LLMs constroem e explicam respostas, capturando melhor as necessidades dos usuários e o conhecimento, enquanto permanecem fáceis de pontuar. Em seguida, mostramos que, mesmo quando o MCQA é um formato útil, seus conjuntos de dados sofrem com: vazamento; impossibilidade de resposta; atalhos; e saturação. Para cada problema, apresentamos soluções inspiradas na educação, como rubricas para orientar a criação de questões de múltipla escolha; métodos de pontuação para controlar o chute; e a Teoria de Resposta ao Item para criar questões mais desafiadoras. Por fim, discutimos os erros dos LLMs no MCQA—robustez, vieses e explicações infiéis—mostrando como nossas soluções anteriores medem ou abordam melhor esses problemas. Embora não seja necessário abandonar o MCQA, incentivamos mais esforços no refinamento da tarefa com base em testes educacionais, avançando as avaliações.
English
Multiple choice question answering (MCQA) is popular for LLM evaluation due to its simplicity and human-like testing, but we argue for its reform. We first reveal flaws in MCQA's format, as it struggles to: 1) test generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge. We instead advocate for generative formats based on human testing-where LLMs construct and explain answers-better capturing user needs and knowledge while remaining easy to score. We then show even when MCQA is a useful format, its datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In each issue, we give fixes from education, like rubrics to guide MCQ writing; scoring methods to bridle guessing; and Item Response Theory to build harder MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful explanations-showing how our prior solutions better measure or address these issues. While we do not need to desert MCQA, we encourage more efforts in refining the task based on educational testing, advancing evaluations.

Summary

AI-Generated Summary

PDF22February 21, 2025