ChatPaper.aiChatPaper

Какой из этих вариантов лучше всего описывает множественный выбор при оценке с использованием больших языковых моделей? A) Вынужденный B) Несовершенный C) Исправимый D) Все вышеперечисленное

Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

February 19, 2025
Авторы: Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber
cs.AI

Аннотация

Множественный выбор ответов (MCQA) популярен для оценки больших языковых моделей (LLM) благодаря своей простоте и сходству с человеческим тестированием, однако мы выступаем за его реформу. Сначала мы выявляем недостатки формата MCQA, так как он не способен: 1) тестировать генерацию и субъективность; 2) соответствовать сценариям использования LLM; 3) полноценно проверять знания. Вместо этого мы предлагаем использовать генеративные форматы, основанные на человеческом тестировании, где LLM создают и объясняют ответы, что лучше отражает потребности пользователей и проверяет знания, оставаясь при этом простым для оценки. Затем мы показываем, что даже когда MCQA является полезным форматом, его наборы данных страдают от: утечек; невозможности ответа; упрощённых решений; и насыщения. Для каждой из этих проблем мы предлагаем решения из области образования, такие как рубрики для написания вопросов с множественным выбором; методы оценки, ограничивающие угадывание; и теорию ответа на задания (Item Response Theory) для создания более сложных вопросов. Наконец, мы обсуждаем ошибки LLM в MCQA — устойчивость, предвзятость и недостоверные объяснения — показывая, как наши предложенные решения лучше измеряют или устраняют эти проблемы. Хотя нам не нужно полностью отказываться от MCQA, мы призываем приложить больше усилий для улучшения этой задачи на основе образовательного тестирования, продвигая более совершенные методы оценки.
English
Multiple choice question answering (MCQA) is popular for LLM evaluation due to its simplicity and human-like testing, but we argue for its reform. We first reveal flaws in MCQA's format, as it struggles to: 1) test generation/subjectivity; 2) match LLM use cases; and 3) fully test knowledge. We instead advocate for generative formats based on human testing-where LLMs construct and explain answers-better capturing user needs and knowledge while remaining easy to score. We then show even when MCQA is a useful format, its datasets suffer from: leakage; unanswerability; shortcuts; and saturation. In each issue, we give fixes from education, like rubrics to guide MCQ writing; scoring methods to bridle guessing; and Item Response Theory to build harder MCQs. Lastly, we discuss LLM errors in MCQA-robustness, biases, and unfaithful explanations-showing how our prior solutions better measure or address these issues. While we do not need to desert MCQA, we encourage more efforts in refining the task based on educational testing, advancing evaluations.

Summary

AI-Generated Summary

PDF22February 21, 2025