ChatPaper.aiChatPaper

MedAlign: Un Dataset Generato da Clinici per il Seguimento di Istruzioni con Cartelle Cliniche Elettroniche

MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

August 27, 2023
Autori: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
cs.AI

Abstract

La capacità dei grandi modelli linguistici (LLM) di seguire istruzioni in linguaggio naturale con una fluidità paragonabile a quella umana suggerisce numerose opportunità nel settore sanitario per ridurre il carico amministrativo e migliorare la qualità delle cure. Tuttavia, valutare gli LLM su compiti realistici di generazione di testo per il settore sanitario rimane una sfida. I dataset esistenti di risposta a domande basati sui dati delle cartelle cliniche elettroniche (EHR) non riescono a catturare la complessità dei bisogni informativi e del carico documentale affrontato dai clinici. Per affrontare queste sfide, introduciamo MedAlign, un dataset di riferimento composto da 983 istruzioni in linguaggio naturale per dati EHR. MedAlign è stato curato da 15 clinici (7 specialità), include risposte di riferimento scritte da clinici per 303 istruzioni e fornisce 276 EHR longitudinali per contestualizzare le coppie istruzione-risposta. Abbiamo utilizzato MedAlign per valutare 6 LLM di dominio generale, facendo classificare ai clinici l'accuratezza e la qualità di ciascuna risposta generata dagli LLM. Abbiamo riscontrato tassi di errore elevati, che vanno dal 35% (GPT-4) al 68% (MPT-7B-Instruct), e un calo dell'8,3% nell'accuratezza passando da una lunghezza di contesto di 32k a 2k per GPT-4. Infine, riportiamo le correlazioni tra le classificazioni dei clinici e le metriche automatiche di generazione del linguaggio naturale come metodo per classificare gli LLM senza revisione umana. Rendiamo disponibile MedAlign con un accordo di utilizzo dei dati per la ricerca, per consentire valutazioni degli LLM su compiti allineati con le esigenze e le preferenze dei clinici.
English
The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences.
PDF314May 8, 2026