Extraktion biomedizinischen Wissens durch Destillation großer Sprachmodelle: Eine Fallstudie zu unerwünschten Arzneimittelwirkungen
Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events
July 12, 2023
Autoren: Yu Gu, Sheng Zhang, Naoto Usuyama, Yonas Woldesenbet, Cliff Wong, Praneeth Sanapathi, Mu Wei, Naveen Valluri, Erika Strandberg, Tristan Naumann, Hoifung Poon
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) wie GPT-4 haben bemerkenswerte Fähigkeiten in einer Vielzahl von Aufgaben, einschließlich gesundheitsbezogener Anwendungen, gezeigt. In diesem Artikel untersuchen wir, wie LLMs zur Skalierung der Kuratierung biomedizinischen Wissens eingesetzt werden können. Wir stellen fest, dass LLMs zwar bereits über eine solide Kompetenz in der Strukturierung biomedizinischer Texte verfügen, durch die Destillation in ein aufgaben-spezifisches Studentenmodell mittels selbstüberwachtem Lernen jedoch erhebliche Verbesserungen gegenüber den Standard-LLMs erzielt werden können, mit zusätzlichen Vorteilen wie Kostenersparnis, Effizienz und Zugang zu einem transparenten Modell.
Wir führen eine Fallstudie zur Extraktion unerwünschter Arzneimittelwirkungen (Adverse Drug Events, ADEs) durch, ein wichtiger Bereich zur Verbesserung der Patientenversorgung. Bei der standardmäßigen Bewertung der ADE-Extraktion erreichte ein aus GPT-3.5 destilliertes PubMedBERT-Modell eine vergleichbare Genauigkeit wie überwachte State-of-the-Art-Modelle, ohne dabei auf annotierte Daten zurückzugreifen. Obwohl das destillierte Modell über 1.000 Mal kleiner ist, übertraf es sein Lehrer-Modell GPT-3.5 um mehr als 6 absolute Punkte im F1-Score und GPT-4 um mehr als 5 absolute Punkte.
Ablationsstudien zur Wahl des Destillationsmodells (z. B. PubMedBERT vs. BioGPT) und zur Architektur der ADE-Extraktion geben Aufschluss über Best Practices für die Extraktion biomedizinischen Wissens. Ähnliche Verbesserungen wurden durch Destillation auch bei anderen standardmäßigen Aufgaben zur Extraktion biomedizinischen Wissens erzielt, wie z. B. Gen-Krankheits-Assoziationen und geschützte Gesundheitsinformationen, was das Potenzial dieses Ansatzes weiter verdeutlicht.
English
Large language models (LLMs), such as GPT-4, have demonstrated remarkable
capabilities across a wide range of tasks, including health applications. In
this paper, we study how LLMs can be used to scale biomedical knowledge
curation. We find that while LLMs already possess decent competency in
structuring biomedical text, by distillation into a task-specific student model
through self-supervised learning, substantial gains can be attained over
out-of-box LLMs, with additional advantages such as cost, efficiency, and
white-box model access.
We conduct a case study on adverse drug event (ADE) extraction, which is an
important area for improving care. On standard ADE extraction evaluation, a
GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised
state-of-the-art models without using any labeled data. Despite being over
1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by
over 6 absolute points in F1 and GPT-4 by over 5 absolute points.
Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT)
and ADE extraction architecture shed light on best practice for biomedical
knowledge extraction. Similar gains were attained by distillation for other
standard biomedical knowledge extraction tasks such as gene-disease
associations and protected health information, further illustrating the promise
of this approach.