ChatPaper.aiChatPaper

MedAlign: Ein klinikererstellter Datensatz für die Befolgung von Anweisungen mit elektronischen Patientenakten

MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

August 27, 2023
Autoren: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
cs.AI

Zusammenfassung

Die Fähigkeit großer Sprachmodelle (LLMs), natürliche Sprachbefehle mit menschenähnlicher Flüssigkeit zu befolgen, eröffnet zahlreiche Möglichkeiten im Gesundheitswesen, um den administrativen Aufwand zu verringern und die Qualität der Versorgung zu verbessern. Die Bewertung von LLMs bei realistischen Textgenerierungsaufgaben im Gesundheitswesen bleibt jedoch eine Herausforderung. Bestehende Frage-Antwort-Datensätze für elektronische Gesundheitsakten (EHR) erfassen nicht die Komplexität der Informationsbedürfnisse und Dokumentationslasten, mit denen Kliniker konfrontiert sind. Um diese Herausforderungen zu bewältigen, stellen wir MedAlign vor, einen Benchmark-Datensatz mit 983 natürlichen Sprachbefehlen für EHR-Daten. MedAlign wurde von 15 Klinikern (7 Fachgebiete) kuratiert, enthält von Klinikern verfasste Referenzantworten für 303 Befehle und bietet 276 longitudinale EHRs zur Verankerung von Befehl-Antwort-Paaren. Wir nutzten MedAlign, um 6 allgemeine LLMs zu bewerten, wobei Kliniker die Genauigkeit und Qualität jeder LLM-Antwort bewerteten. Wir fanden hohe Fehlerraten, die von 35 % (GPT-4) bis 68 % (MPT-7B-Instruct) reichten, sowie einen Genauigkeitsverlust von 8,3 % beim Wechsel von 32k zu 2k Kontextlängen für GPT-4. Schließlich berichten wir über Korrelationen zwischen den Bewertungen der Kliniker und automatisierten Metriken zur natürlichen Sprachgenerierung als Möglichkeit, LLMs ohne menschliche Überprüfung zu bewerten. Wir stellen MedAlign unter einer Forschungsdaten-Nutzungsvereinbarung zur Verfügung, um LLM-Bewertungen an Aufgaben auszurichten, die den Bedürfnissen und Präferenzen von Klinikern entsprechen.
English
The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences.
PDF304December 15, 2024