Distilleren van Grote Taalmodellen voor Biomedische Kennis Extractie: Een Casestudie over Bijwerkingen van Medicijnen
Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events
July 12, 2023
Auteurs: Yu Gu, Sheng Zhang, Naoto Usuyama, Yonas Woldesenbet, Cliff Wong, Praneeth Sanapathi, Mu Wei, Naveen Valluri, Erika Strandberg, Tristan Naumann, Hoifung Poon
cs.AI
Samenvatting
Grote taalmodellen (LLMs), zoals GPT-4, hebben opmerkelijke capaciteiten getoond voor een breed scala aan taken, waaronder gezondheidstoepassingen. In dit artikel onderzoeken we hoe LLMs kunnen worden gebruikt om de curatie van biomedische kennis op te schalen. We constateren dat hoewel LLMs al een behoorlijke competentie hebben in het structureren van biomedische tekst, er aanzienlijke verbeteringen kunnen worden bereikt ten opzichte van out-of-the-box LLMs door middel van distillatie in een taakspecifiek studentenmodel via zelfgesuperviseerd leren, met bijkomende voordelen zoals kosten, efficiëntie en toegang tot een white-box model.
We voeren een casestudy uit over de extractie van bijwerkingen van medicijnen (ADE), wat een belangrijk gebied is voor het verbeteren van de zorg. Bij standaard ADE-extractie-evaluatie behaalde een GPT-3.5 gedistilleerd PubMedBERT-model een vergelijkbare nauwkeurigheid als gesuperviseerde state-of-the-art modellen zonder gebruik te maken van gelabelde data. Ondanks dat het meer dan 1.000 keer kleiner was, presteerde het gedistilleerde model zijn leraar GPT-3.5 met meer dan 6 absolute punten in F1 en GPT-4 met meer dan 5 absolute punten.
Ablatiestudies over de keuze van het distillatiemodel (bijvoorbeeld PubMedBERT versus BioGPT) en de ADE-extractiearchitectuur werpen licht op de beste praktijken voor biomedische kennisextractie. Soortgelijke verbeteringen werden bereikt door distillatie voor andere standaard biomedische kennisextractietaken, zoals gen-ziekte-associaties en beschermde gezondheidsinformatie, wat verder de belofte van deze aanpak illustreert.
English
Large language models (LLMs), such as GPT-4, have demonstrated remarkable
capabilities across a wide range of tasks, including health applications. In
this paper, we study how LLMs can be used to scale biomedical knowledge
curation. We find that while LLMs already possess decent competency in
structuring biomedical text, by distillation into a task-specific student model
through self-supervised learning, substantial gains can be attained over
out-of-box LLMs, with additional advantages such as cost, efficiency, and
white-box model access.
We conduct a case study on adverse drug event (ADE) extraction, which is an
important area for improving care. On standard ADE extraction evaluation, a
GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised
state-of-the-art models without using any labeled data. Despite being over
1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by
over 6 absolute points in F1 and GPT-4 by over 5 absolute points.
Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT)
and ADE extraction architecture shed light on best practice for biomedical
knowledge extraction. Similar gains were attained by distillation for other
standard biomedical knowledge extraction tasks such as gene-disease
associations and protected health information, further illustrating the promise
of this approach.