MedAlign: 電子カルテを用いた指示追従のための臨床医生成データセット
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records
August 27, 2023
著者: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
cs.AI
要旨
大規模言語モデル(LLM)が人間レベルの流暢さで自然言語の指示に従う能力は、医療分野において事務負担を軽減し、ケアの質を向上させる多くの機会を示唆しています。しかし、医療における現実的なテキスト生成タスクでLLMを評価することは依然として困難です。電子健康記録(EHR)データのための既存の質問応答データセットは、臨床医が経験する情報ニーズと文書化負担の複雑さを捉えられていません。これらの課題に対処するため、我々は983の自然言語指示を含むベンチマークデータセット「MedAlign」を導入しました。MedAlignは15名の臨床医(7つの専門分野)によってキュレーションされ、303の指示に対する臨床医が作成した参照応答を含み、指示と応答のペアを基盤とするための276の縦断的EHRを提供します。我々はMedAlignを使用して6つの汎用ドメインLLMを評価し、臨床医が各LLMの応答の正確性と品質をランク付けしました。その結果、エラー率はGPT-4の35%からMPT-7B-Instructの68%まで幅広く、GPT-4ではコンテキスト長が32kから2kに減少すると精度が8.3%低下することがわかりました。最後に、臨床医のランキングと自動化された自然言語生成メトリクスとの相関を報告し、人間のレビューなしでLLMをランク付けする方法を示します。我々はMedAlignを研究データ使用契約の下で公開し、臨床医のニーズと嗜好に沿ったタスクでLLMを評価できるようにしました。
English
The ability of large language models (LLMs) to follow natural language
instructions with human-level fluency suggests many opportunities in healthcare
to reduce administrative burden and improve quality of care. However,
evaluating LLMs on realistic text generation tasks for healthcare remains
challenging. Existing question answering datasets for electronic health record
(EHR) data fail to capture the complexity of information needs and
documentation burdens experienced by clinicians. To address these challenges,
we introduce MedAlign, a benchmark dataset of 983 natural language instructions
for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes
clinician-written reference responses for 303 instructions, and provides 276
longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to
evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality
of each LLM response. We found high error rates, ranging from 35% (GPT-4) to
68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k
context lengths for GPT-4. Finally, we report correlations between clinician
rankings and automated natural language generation metrics as a way to rank
LLMs without human review. We make MedAlign available under a research data use
agreement to enable LLM evaluations on tasks aligned with clinician needs and
preferences.