Дистилляция крупных языковых моделей для извлечения биомедицинских знаний: Пример исследования побочных эффектов лекарственных препаратов

Аннотация

Крупные языковые модели (LLM), такие как GPT-4, продемонстрировали впечатляющие способности в решении широкого круга задач, включая приложения в области здравоохранения. В данной статье мы исследуем, как LLM могут быть использованы для масштабирования курирования биомедицинских знаний. Мы обнаружили, что хотя LLM уже обладают достойной компетентностью в структурировании биомедицинских текстов, значительные улучшения могут быть достигнуты путем дистилляции в специализированную студенческую модель с использованием самообучения, что превосходит возможности стандартных LLM, а также обеспечивает дополнительные преимущества, такие как снижение затрат, повышение эффективности и доступ к прозрачной модели. Мы провели кейс-стади по извлечению информации о неблагоприятных лекарственных реакциях (ADE), что является важной областью для улучшения медицинской помощи. В стандартной оценке извлечения ADE модель PubMedBERT, дистиллированная из GPT-3.5, достигла сопоставимой точности с современными моделями, обученными с учителем, без использования размеченных данных. Несмотря на то, что дистиллированная модель более чем в 1000 раз меньше, она превзошла свою учительскую модель GPT-3.5 на более чем 6 абсолютных пунктов по метрике F1 и GPT-4 — на более чем 5 абсолютных пунктов. Абляционные исследования выбора модели для дистилляции (например, PubMedBERT против BioGPT) и архитектуры извлечения ADE проливают свет на лучшие практики для извлечения биомедицинских знаний. Аналогичные улучшения были достигнуты с помощью дистилляции для других стандартных задач извлечения биомедицинских знаний, таких как ассоциации генов и заболеваний и защищенная медицинская информация, что дополнительно подчеркивает перспективность данного подхода.

English

Large language models (LLMs), such as GPT-4, have demonstrated remarkable capabilities across a wide range of tasks, including health applications. In this paper, we study how LLMs can be used to scale biomedical knowledge curation. We find that while LLMs already possess decent competency in structuring biomedical text, by distillation into a task-specific student model through self-supervised learning, substantial gains can be attained over out-of-box LLMs, with additional advantages such as cost, efficiency, and white-box model access. We conduct a case study on adverse drug event (ADE) extraction, which is an important area for improving care. On standard ADE extraction evaluation, a GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised state-of-the-art models without using any labeled data. Despite being over 1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by over 6 absolute points in F1 and GPT-4 by over 5 absolute points. Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT) and ADE extraction architecture shed light on best practice for biomedical knowledge extraction. Similar gains were attained by distillation for other standard biomedical knowledge extraction tasks such as gene-disease associations and protected health information, further illustrating the promise of this approach.

Дистилляция крупных языковых моделей для извлечения биомедицинских знаний: Пример исследования побочных эффектов лекарственных препаратов

Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events

Аннотация

Support