MedAlign: 전자의무기록을 활용한 지시사항 수행을 위한 임상의사 생성 데이터셋
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records
August 27, 2023
저자: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
cs.AI
초록
대형 언어 모델(LLM)이 인간 수준의 유창함으로 자연어 지시를 따르는 능력은 의료 분야에서 행정적 부담을 줄이고 치료의 질을 향상시킬 수 있는 많은 기회를 제시한다. 그러나 의료 분야에서 현실적인 텍스트 생성 작업에 대한 LLM의 평가는 여전히 어려운 과제로 남아 있다. 전자의무기록(EHR) 데이터에 대한 기존의 질의응답 데이터셋은 임상의가 경험하는 정보 요구와 문서화 부담의 복잡성을 충분히 반영하지 못한다. 이러한 문제를 해결하기 위해, 우리는 EHR 데이터에 대한 983개의 자연어 지시로 구성된 벤치마크 데이터셋인 MedAlign를 소개한다. MedAlign는 15명의 임상의(7개 전문 분야)가 참여하여 구성되었으며, 303개의 지시에 대한 임상의가 작성한 참조 응답을 포함하고, 276개의 종단적 EHR을 제공하여 지시-응답 쌍을 기반으로 한다. 우리는 MedAlign를 사용하여 6개의 일반 도메인 LLM을 평가하고, 임상의가 각 LLM 응답의 정확성과 질을 순위 매기도록 했다. 우리는 GPT-4의 35%부터 MPT-7B-Instruct의 68%까지 높은 오류율을 발견했으며, GPT-4의 컨텍스트 길이를 32k에서 2k로 줄였을 때 정확도가 8.3% 하락하는 것을 확인했다. 마지막으로, 임상의의 순위와 자동화된 자연어 생성 지표 간의 상관관계를 보고하여 인간 검토 없이 LLM을 순위 매기는 방법을 제시한다. 우리는 MedAlign를 연구 데이터 사용 계약 하에 공개하여 임상의의 요구와 선호에 부합하는 작업에 대한 LLM 평가를 가능하게 한다.
English
The ability of large language models (LLMs) to follow natural language
instructions with human-level fluency suggests many opportunities in healthcare
to reduce administrative burden and improve quality of care. However,
evaluating LLMs on realistic text generation tasks for healthcare remains
challenging. Existing question answering datasets for electronic health record
(EHR) data fail to capture the complexity of information needs and
documentation burdens experienced by clinicians. To address these challenges,
we introduce MedAlign, a benchmark dataset of 983 natural language instructions
for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes
clinician-written reference responses for 303 instructions, and provides 276
longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to
evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality
of each LLM response. We found high error rates, ranging from 35% (GPT-4) to
68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k
context lengths for GPT-4. Finally, we report correlations between clinician
rankings and automated natural language generation metrics as a way to rank
LLMs without human review. We make MedAlign available under a research data use
agreement to enable LLM evaluations on tasks aligned with clinician needs and
preferences.