ChatPaper.aiChatPaper

MedAlign : Un ensemble de données généré par des cliniciens pour le suivi des instructions avec les dossiers médicaux électroniques

MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

August 27, 2023
Auteurs: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
cs.AI

Résumé

La capacité des grands modèles de langage (LLMs) à suivre des instructions en langage naturel avec une fluidité comparable à celle des humains suggère de nombreuses opportunités dans le domaine de la santé pour réduire la charge administrative et améliorer la qualité des soins. Cependant, évaluer les LLMs sur des tâches réalistes de génération de texte pour la santé reste un défi. Les ensembles de données existants pour les questions-réponses sur les dossiers médicaux électroniques (DME) ne parviennent pas à capturer la complexité des besoins en information et des charges documentaires rencontrées par les cliniciens. Pour relever ces défis, nous introduisons MedAlign, un ensemble de données de référence comprenant 983 instructions en langage naturel pour les DME. MedAlign est élaboré par 15 cliniciens (7 spécialités), inclut des réponses de référence rédigées par des cliniciens pour 303 instructions, et fournit 276 DME longitudinaux pour ancrer les paires instruction-réponse. Nous avons utilisé MedAlign pour évaluer 6 LLMs généralistes, en demandant aux cliniciens de classer la précision et la qualité de chaque réponse des LLMs. Nous avons constaté des taux d'erreur élevés, allant de 35 % (GPT-4) à 68 % (MPT-7B-Instruct), ainsi qu'une baisse de précision de 8,3 % lors du passage d'une longueur de contexte de 32k à 2k pour GPT-4. Enfin, nous rapportons des corrélations entre les classements des cliniciens et les métriques automatisées de génération de langage naturel comme moyen de classer les LLMs sans examen humain. Nous mettons MedAlign à disposition sous un accord d'utilisation des données de recherche pour permettre l'évaluation des LLMs sur des tâches alignées sur les besoins et préférences des cliniciens.
English
The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences.
PDF304December 15, 2024