Масштабирование подбора клинических испытаний с использованием больших языковых моделей: пример из онкологии
Scaling Clinical Trial Matching Using Large Language Models: A Case Study in Oncology
August 4, 2023
Авторы: Cliff Wong, Sheng Zheng, Yu Gu, Christine Moung, Jacob Abel, Naoto Usuyama, Roshanthi Weerasinghe, Brian Piening, Tristan Naumann, Carlo Bifulco, Hoifung Poon
cs.AI
Аннотация
Подбор пациентов для клинических испытаний является ключевым процессом в здравоохранении и научных исследованиях. На практике этот процесс сталкивается с проблемами, связанными с огромным объемом неструктурированных данных и невозможностью масштабирования ручной обработки. В данной статье мы проводим систематическое исследование масштабирования подбора клинических испытаний с использованием крупных языковых моделей (LLM), уделяя особое внимание онкологии. Наше исследование основано на системе подбора клинических испытаний, которая в настоящее время тестируется в крупной сети здравоохранения США. Первоначальные результаты обнадеживают: современные LLM, такие как GPT-4, уже способны структурировать сложные критерии отбора для клинических испытаний и извлекать сложную логику сопоставления (например, вложенные операторы AND/OR/NOT). Хотя эти модели еще далеки от совершенства, они значительно превосходят предыдущие сильные базовые подходы и могут служить предварительным решением для отбора кандидатов на участие в испытаниях с участием человека в процессе. Наше исследование также выявляет несколько важных областей для улучшения применения LLM в сквозном подборе клинических испытаний, таких как ограничения контекста и точность, особенно в структурировании информации о пациентах из долгосрочных медицинских записей.
English
Clinical trial matching is a key process in health delivery and discovery. In
practice, it is plagued by overwhelming unstructured data and unscalable manual
processing. In this paper, we conduct a systematic study on scaling clinical
trial matching using large language models (LLMs), with oncology as the focus
area. Our study is grounded in a clinical trial matching system currently in
test deployment at a large U.S. health network. Initial findings are promising:
out of box, cutting-edge LLMs, such as GPT-4, can already structure elaborate
eligibility criteria of clinical trials and extract complex matching logic
(e.g., nested AND/OR/NOT). While still far from perfect, LLMs substantially
outperform prior strong baselines and may serve as a preliminary solution to
help triage patient-trial candidates with humans in the loop. Our study also
reveals a few significant growth areas for applying LLMs to end-to-end clinical
trial matching, such as context limitation and accuracy, especially in
structuring patient information from longitudinal medical records.