Distilando Modelos de Linguagem de Grande Escala para Extração de Conhecimento Biomédico: Um Estudo de Caso sobre Eventos Adversos a Medicamentos
Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events
July 12, 2023
Autores: Yu Gu, Sheng Zhang, Naoto Usuyama, Yonas Woldesenbet, Cliff Wong, Praneeth Sanapathi, Mu Wei, Naveen Valluri, Erika Strandberg, Tristan Naumann, Hoifung Poon
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs), como o GPT-4, demonstraram capacidades notáveis em uma ampla gama de tarefas, incluindo aplicações na área da saúde. Neste artigo, estudamos como os LLMs podem ser usados para escalar a curadoria de conhecimento biomédico. Descobrimos que, embora os LLMs já possuam uma competência decente na estruturação de textos biomédicos, ao destilar esse conhecimento em um modelo estudante específico para a tarefa por meio de aprendizado auto-supervisionado, ganhos substanciais podem ser obtidos em relação aos LLMs prontos para uso, com vantagens adicionais como custo, eficiência e acesso a modelos de caixa branca.
Realizamos um estudo de caso sobre a extração de eventos adversos a medicamentos (ADE), que é uma área importante para a melhoria do cuidado. Na avaliação padrão de extração de ADE, um modelo PubMedBERT destilado do GPT-3.5 atingiu uma precisão comparável aos modelos supervisionados de última geração sem usar nenhum dado rotulado. Apesar de ser mais de 1.000 vezes menor, o modelo destilado superou seu professor GPT-3.5 em mais de 6 pontos absolutos em F1 e o GPT-4 em mais de 5 pontos absolutos.
Estudos de ablação sobre a escolha do modelo de destilação (por exemplo, PubMedBERT vs BioGPT) e a arquitetura de extração de ADE lançam luz sobre as melhores práticas para a extração de conhecimento biomédico. Ganhos semelhantes foram obtidos por destilação para outras tarefas padrão de extração de conhecimento biomédico, como associações gene-doença e informações de saúde protegidas, ilustrando ainda mais o potencial dessa abordagem.
English
Large language models (LLMs), such as GPT-4, have demonstrated remarkable
capabilities across a wide range of tasks, including health applications. In
this paper, we study how LLMs can be used to scale biomedical knowledge
curation. We find that while LLMs already possess decent competency in
structuring biomedical text, by distillation into a task-specific student model
through self-supervised learning, substantial gains can be attained over
out-of-box LLMs, with additional advantages such as cost, efficiency, and
white-box model access.
We conduct a case study on adverse drug event (ADE) extraction, which is an
important area for improving care. On standard ADE extraction evaluation, a
GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised
state-of-the-art models without using any labeled data. Despite being over
1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by
over 6 absolute points in F1 and GPT-4 by over 5 absolute points.
Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT)
and ADE extraction architecture shed light on best practice for biomedical
knowledge extraction. Similar gains were attained by distillation for other
standard biomedical knowledge extraction tasks such as gene-disease
associations and protected health information, further illustrating the promise
of this approach.