MedAlign: Набор данных, созданный клиницистами, для выполнения инструкций с использованием электронных медицинских записей
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records
August 27, 2023
Авторы: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
cs.AI
Аннотация
Способность крупных языковых моделей (LLM) следовать инструкциям на естественном языке с человеческой беглостью открывает множество возможностей в здравоохранении для снижения административной нагрузки и повышения качества медицинской помощи. Однако оценка LLM на реалистичных задачах генерации текста для здравоохранения остается сложной задачей. Существующие наборы данных для вопросно-ответных систем, основанные на данных электронных медицинских записей (EHR), не отражают сложности информационных потребностей и документационной нагрузки, с которой сталкиваются врачи. Для решения этих проблем мы представляем MedAlign — эталонный набор данных, содержащий 983 инструкции на естественном языке для работы с EHR. MedAlign был разработан при участии 15 врачей (7 специальностей), включает эталонные ответы, написанные врачами для 303 инструкций, и предоставляет 276 долгосрочных EHR для привязки пар "инструкция-ответ". Мы использовали MedAlign для оценки 6 LLM общего назначения, попросив врачей оценить точность и качество каждого ответа модели. Мы обнаружили высокий уровень ошибок, варьирующийся от 35% (GPT-4) до 68% (MPT-7B-Instruct), а также снижение точности на 8,3% при переходе от длины контекста в 32 тыс. токенов к 2 тыс. для GPT-4. Наконец, мы сообщаем о корреляциях между оценками врачей и автоматическими метриками генерации естественного языка как способе ранжирования LLM без участия человека. Мы предоставляем MedAlign в рамках соглашения об использовании исследовательских данных, чтобы обеспечить оценку LLM на задачах, соответствующих потребностям и предпочтениям врачей.
English
The ability of large language models (LLMs) to follow natural language
instructions with human-level fluency suggests many opportunities in healthcare
to reduce administrative burden and improve quality of care. However,
evaluating LLMs on realistic text generation tasks for healthcare remains
challenging. Existing question answering datasets for electronic health record
(EHR) data fail to capture the complexity of information needs and
documentation burdens experienced by clinicians. To address these challenges,
we introduce MedAlign, a benchmark dataset of 983 natural language instructions
for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes
clinician-written reference responses for 303 instructions, and provides 276
longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to
evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality
of each LLM response. We found high error rates, ranging from 35% (GPT-4) to
68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k
context lengths for GPT-4. Finally, we report correlations between clinician
rankings and automated natural language generation metrics as a way to rank
LLMs without human review. We make MedAlign available under a research data use
agreement to enable LLM evaluations on tasks aligned with clinician needs and
preferences.