ChatPaper.aiChatPaper

MedAlign: Um Conjunto de Dados Gerado por Clínicos para Seguimento de Instruções com Registros Médicos Eletrônicos

MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

August 27, 2023
Autores: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah
cs.AI

Resumo

A capacidade dos grandes modelos de linguagem (LLMs) de seguir instruções em linguagem natural com fluência em nível humano sugere diversas oportunidades na área da saúde para reduzir a carga administrativa e melhorar a qualidade do atendimento. No entanto, avaliar LLMs em tarefas realistas de geração de texto para a saúde continua sendo um desafio. Os conjuntos de dados existentes de perguntas e respostas para dados de prontuários eletrônicos (EHR) não capturam a complexidade das necessidades de informação e dos encargos de documentação enfrentados pelos clínicos. Para abordar esses desafios, apresentamos o MedAlign, um conjunto de dados de referência composto por 983 instruções em linguagem natural para dados de EHR. O MedAlign foi curado por 15 clínicos (7 especialidades), inclui respostas de referência escritas por clínicos para 303 instruções e fornece 276 EHRs longitudinais para contextualizar pares de instrução-resposta. Utilizamos o MedAlign para avaliar 6 LLMs de domínio geral, solicitando que clínicos classificassem a precisão e a qualidade de cada resposta gerada pelos modelos. Encontramos altas taxas de erro, variando de 35% (GPT-4) a 68% (MPT-7B-Instruct), e uma queda de 8,3% na precisão ao reduzir o comprimento de contexto de 32k para 2k no GPT-4. Por fim, relatamos correlações entre as classificações dos clínicos e métricas automatizadas de geração de linguagem natural como uma forma de classificar LLMs sem revisão humana. Disponibilizamos o MedAlign sob um acordo de uso de dados para pesquisa, permitindo avaliações de LLMs em tarefas alinhadas com as necessidades e preferências dos clínicos.
English
The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences.
PDF314February 17, 2026