Distilando Modelos de Linguagem de Grande Escala para Extração de Conhecimento Biomédico: Um Estudo de Caso sobre Eventos Adversos a Medicamentos

Resumo

Modelos de linguagem de grande escala (LLMs), como o GPT-4, demonstraram capacidades notáveis em uma ampla gama de tarefas, incluindo aplicações na área da saúde. Neste artigo, estudamos como os LLMs podem ser usados para escalar a curadoria de conhecimento biomédico. Descobrimos que, embora os LLMs já possuam uma competência decente na estruturação de textos biomédicos, ao destilar esse conhecimento em um modelo estudante específico para a tarefa por meio de aprendizado auto-supervisionado, ganhos substanciais podem ser obtidos em relação aos LLMs prontos para uso, com vantagens adicionais como custo, eficiência e acesso a modelos de caixa branca. Realizamos um estudo de caso sobre a extração de eventos adversos a medicamentos (ADE), que é uma área importante para a melhoria do cuidado. Na avaliação padrão de extração de ADE, um modelo PubMedBERT destilado do GPT-3.5 atingiu uma precisão comparável aos modelos supervisionados de última geração sem usar nenhum dado rotulado. Apesar de ser mais de 1.000 vezes menor, o modelo destilado superou seu professor GPT-3.5 em mais de 6 pontos absolutos em F1 e o GPT-4 em mais de 5 pontos absolutos. Estudos de ablação sobre a escolha do modelo de destilação (por exemplo, PubMedBERT vs BioGPT) e a arquitetura de extração de ADE lançam luz sobre as melhores práticas para a extração de conhecimento biomédico. Ganhos semelhantes foram obtidos por destilação para outras tarefas padrão de extração de conhecimento biomédico, como associações gene-doença e informações de saúde protegidas, ilustrando ainda mais o potencial dessa abordagem.

English

Large language models (LLMs), such as GPT-4, have demonstrated remarkable capabilities across a wide range of tasks, including health applications. In this paper, we study how LLMs can be used to scale biomedical knowledge curation. We find that while LLMs already possess decent competency in structuring biomedical text, by distillation into a task-specific student model through self-supervised learning, substantial gains can be attained over out-of-box LLMs, with additional advantages such as cost, efficiency, and white-box model access. We conduct a case study on adverse drug event (ADE) extraction, which is an important area for improving care. On standard ADE extraction evaluation, a GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised state-of-the-art models without using any labeled data. Despite being over 1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by over 6 absolute points in F1 and GPT-4 by over 5 absolute points. Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT) and ADE extraction architecture shed light on best practice for biomedical knowledge extraction. Similar gains were attained by distillation for other standard biomedical knowledge extraction tasks such as gene-disease associations and protected health information, further illustrating the promise of this approach.

Distilando Modelos de Linguagem de Grande Escala para Extração de Conhecimento Biomédico: Um Estudo de Caso sobre Eventos Adversos a Medicamentos

Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events

Resumo

Support