Дистилляция крупных языковых моделей для извлечения биомедицинских знаний: Пример исследования побочных эффектов лекарственных препаратов
Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events
July 12, 2023
Авторы: Yu Gu, Sheng Zhang, Naoto Usuyama, Yonas Woldesenbet, Cliff Wong, Praneeth Sanapathi, Mu Wei, Naveen Valluri, Erika Strandberg, Tristan Naumann, Hoifung Poon
cs.AI
Аннотация
Крупные языковые модели (LLM), такие как GPT-4, продемонстрировали впечатляющие способности в решении широкого круга задач, включая приложения в области здравоохранения. В данной статье мы исследуем, как LLM могут быть использованы для масштабирования курирования биомедицинских знаний. Мы обнаружили, что хотя LLM уже обладают достойной компетентностью в структурировании биомедицинских текстов, значительные улучшения могут быть достигнуты путем дистилляции в специализированную студенческую модель с использованием самообучения, что превосходит возможности стандартных LLM, а также обеспечивает дополнительные преимущества, такие как снижение затрат, повышение эффективности и доступ к прозрачной модели.
Мы провели кейс-стади по извлечению информации о неблагоприятных лекарственных реакциях (ADE), что является важной областью для улучшения медицинской помощи. В стандартной оценке извлечения ADE модель PubMedBERT, дистиллированная из GPT-3.5, достигла сопоставимой точности с современными моделями, обученными с учителем, без использования размеченных данных. Несмотря на то, что дистиллированная модель более чем в 1000 раз меньше, она превзошла свою учительскую модель GPT-3.5 на более чем 6 абсолютных пунктов по метрике F1 и GPT-4 — на более чем 5 абсолютных пунктов.
Абляционные исследования выбора модели для дистилляции (например, PubMedBERT против BioGPT) и архитектуры извлечения ADE проливают свет на лучшие практики для извлечения биомедицинских знаний. Аналогичные улучшения были достигнуты с помощью дистилляции для других стандартных задач извлечения биомедицинских знаний, таких как ассоциации генов и заболеваний и защищенная медицинская информация, что дополнительно подчеркивает перспективность данного подхода.
English
Large language models (LLMs), such as GPT-4, have demonstrated remarkable
capabilities across a wide range of tasks, including health applications. In
this paper, we study how LLMs can be used to scale biomedical knowledge
curation. We find that while LLMs already possess decent competency in
structuring biomedical text, by distillation into a task-specific student model
through self-supervised learning, substantial gains can be attained over
out-of-box LLMs, with additional advantages such as cost, efficiency, and
white-box model access.
We conduct a case study on adverse drug event (ADE) extraction, which is an
important area for improving care. On standard ADE extraction evaluation, a
GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised
state-of-the-art models without using any labeled data. Despite being over
1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by
over 6 absolute points in F1 and GPT-4 by over 5 absolute points.
Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT)
and ADE extraction architecture shed light on best practice for biomedical
knowledge extraction. Similar gains were attained by distillation for other
standard biomedical knowledge extraction tasks such as gene-disease
associations and protected health information, further illustrating the promise
of this approach.