ChatPaper.aiChatPaper

MedAlign: Een door clinici gegenereerde dataset voor instructieopvolging met elektronische patiëntendossiers

MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

August 27, 2023
Auteurs: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
cs.AI

Samenvatting

Het vermogen van grote taalmodellen (LLMs) om natuurlijke taal instructies met menselijke vloeiendheid te volgen, biedt veel mogelijkheden in de gezondheidszorg om de administratieve last te verminderen en de kwaliteit van zorg te verbeteren. Het evalueren van LLMs op realistische tekstgeneratietaken voor de gezondheidszorg blijft echter een uitdaging. Bestaande vraag-antwoorddatasets voor elektronische patiëntendossiers (EHR) vangen niet de complexiteit van informatiebehoeften en documentatielasten die clinici ervaren. Om deze uitdagingen aan te pakken, introduceren we MedAlign, een benchmarkdataset van 983 natuurlijke taal instructies voor EHR-gegevens. MedAlign is samengesteld door 15 clinici (7 specialismen), bevat door clinici geschreven referentieresponses voor 303 instructies, en biedt 276 longitudinale EHRs om instructie-responseparen te onderbouwen. We gebruikten MedAlign om 6 algemene domein LLMs te evalueren, waarbij clinici de nauwkeurigheid en kwaliteit van elke LLM-response beoordeelden. We vonden hoge foutpercentages, variërend van 35% (GPT-4) tot 68% (MPT-7B-Instruct), en een daling van 8,3% in nauwkeurigheid bij het veranderen van 32k naar 2k contextlengtes voor GPT-4. Tot slot rapporteren we correlaties tussen de beoordelingen van clinici en geautomatiseerde natuurlijke taalgeneratiemetrics als een manier om LLMs te rangschikken zonder menselijke beoordeling. We stellen MedAlign beschikbaar onder een onderzoeksdata gebruiksovereenkomst om LLM-evaluaties mogelijk te maken op taken die aansluiten bij de behoeften en voorkeuren van clinici.
English
The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences.
PDF314February 22, 2026