MedAlign: Un Conjunto de Datos Generado por Clínicos para el Seguimiento de Instrucciones con Registros Médicos Electrónicos
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records
August 27, 2023
Autores: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
cs.AI
Resumen
La capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para seguir instrucciones en lenguaje natural con fluidez a nivel humano sugiere numerosas oportunidades en el ámbito de la salud para reducir la carga administrativa y mejorar la calidad de la atención. Sin embargo, evaluar los LLMs en tareas realistas de generación de texto para el sector sanitario sigue siendo un desafío. Los conjuntos de datos existentes de preguntas y respuestas para registros de salud electrónicos (EHR, por sus siglas en inglés) no logran capturar la complejidad de las necesidades de información y las cargas documentales que experimentan los clínicos. Para abordar estos desafíos, presentamos MedAlign, un conjunto de datos de referencia que incluye 983 instrucciones en lenguaje natural para datos de EHR. MedAlign ha sido curado por 15 clínicos (de 7 especialidades), incluye respuestas de referencia escritas por clínicos para 303 instrucciones y proporciona 276 EHR longitudinales para contextualizar los pares de instrucción-respuesta. Utilizamos MedAlign para evaluar 6 LLMs de dominio general, haciendo que los clínicos clasificaran la precisión y calidad de cada respuesta generada por los LLMs. Encontramos altas tasas de error, que oscilaron entre el 35% (GPT-4) y el 68% (MPT-7B-Instruct), y una caída del 8.3% en la precisión al reducir la longitud de contexto de 32k a 2k tokens en GPT-4. Finalmente, reportamos correlaciones entre las clasificaciones de los clínicos y las métricas automatizadas de generación de lenguaje natural como una forma de clasificar los LLMs sin revisión humana. Ponemos MedAlign a disposición bajo un acuerdo de uso de datos para investigación, con el fin de permitir evaluaciones de LLMs en tareas alineadas con las necesidades y preferencias de los clínicos.
English
The ability of large language models (LLMs) to follow natural language
instructions with human-level fluency suggests many opportunities in healthcare
to reduce administrative burden and improve quality of care. However,
evaluating LLMs on realistic text generation tasks for healthcare remains
challenging. Existing question answering datasets for electronic health record
(EHR) data fail to capture the complexity of information needs and
documentation burdens experienced by clinicians. To address these challenges,
we introduce MedAlign, a benchmark dataset of 983 natural language instructions
for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes
clinician-written reference responses for 303 instructions, and provides 276
longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to
evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality
of each LLM response. We found high error rates, ranging from 35% (GPT-4) to
68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k
context lengths for GPT-4. Finally, we report correlations between clinician
rankings and automated natural language generation metrics as a way to rank
LLMs without human review. We make MedAlign available under a research data use
agreement to enable LLM evaluations on tasks aligned with clinician needs and
preferences.