Distillation de grands modèles de langage pour l'extraction de connaissances biomédicales : une étude de cas sur les effets indésirables des médicaments
Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events
July 12, 2023
Auteurs: Yu Gu, Sheng Zhang, Naoto Usuyama, Yonas Woldesenbet, Cliff Wong, Praneeth Sanapathi, Mu Wei, Naveen Valluri, Erika Strandberg, Tristan Naumann, Hoifung Poon
cs.AI
Résumé
Les grands modèles de langage (LLMs), tels que GPT-4, ont démontré des capacités remarquables dans un large éventail de tâches, y compris les applications de santé. Dans cet article, nous étudions comment les LLMs peuvent être utilisés pour intensifier la curation des connaissances biomédicales. Nous constatons que si les LLMs possèdent déjà une compétence décente dans la structuration des textes biomédicaux, une distillation dans un modèle étudiant spécifique à la tâche par apprentissage auto-supervisé permet d'obtenir des gains substantiels par rapport aux LLMs prêts à l'emploi, avec des avantages supplémentaires tels que le coût, l'efficacité et l'accès à un modèle explicable.
Nous menons une étude de cas sur l'extraction d'effets indésirables des médicaments (ADE), un domaine important pour l'amélioration des soins. Sur une évaluation standard d'extraction d'ADE, un modèle PubMedBERT distillé à partir de GPT-3.5 a atteint une précision comparable aux modèles supervisés de pointe sans utiliser aucune donnée étiquetée. Bien qu'il soit plus de 1 000 fois plus petit, le modèle distillé a surpassé son enseignant GPT-3.5 de plus de 6 points absolus en F1 et GPT-4 de plus de 5 points absolus.
Des études d'ablation sur le choix du modèle de distillation (par exemple, PubMedBERT vs BioGPT) et l'architecture d'extraction d'ADE éclairent les meilleures pratiques pour l'extraction des connaissances biomédicales. Des gains similaires ont été obtenus par distillation pour d'autres tâches standard d'extraction de connaissances biomédicales, telles que les associations gène-maladie et les informations de santé protégées, illustrant davantage le potentiel de cette approche.
English
Large language models (LLMs), such as GPT-4, have demonstrated remarkable
capabilities across a wide range of tasks, including health applications. In
this paper, we study how LLMs can be used to scale biomedical knowledge
curation. We find that while LLMs already possess decent competency in
structuring biomedical text, by distillation into a task-specific student model
through self-supervised learning, substantial gains can be attained over
out-of-box LLMs, with additional advantages such as cost, efficiency, and
white-box model access.
We conduct a case study on adverse drug event (ADE) extraction, which is an
important area for improving care. On standard ADE extraction evaluation, a
GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised
state-of-the-art models without using any labeled data. Despite being over
1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by
over 6 absolute points in F1 and GPT-4 by over 5 absolute points.
Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT)
and ADE extraction architecture shed light on best practice for biomedical
knowledge extraction. Similar gains were attained by distillation for other
standard biomedical knowledge extraction tasks such as gene-disease
associations and protected health information, further illustrating the promise
of this approach.