Исследование границ возможностей GPT-4 в радиологии
Exploring the Boundaries of GPT-4 in Radiology
October 23, 2023
Авторы: Qianchu Liu, Stephanie Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Maria Teodora Wetscherek, Robert Tinn, Harshita Sharma, Fernando Pérez-García, Anton Schwaighofer, Pranav Rajpurkar, Sameer Tajdin Khanna, Hoifung Poon, Naoto Usuyama, Anja Thieme, Aditya V. Nori, Matthew P. Lungren, Ozan Oktay, Javier Alvarez-Valle
cs.AI
Аннотация
Недавний успех крупных языковых моделей общего назначения (LLM) значительно изменил парадигму обработки естественного языка, сместив акцент в сторону универсальной базовой модели, применимой в различных областях и задачах. В данной статье мы сосредоточились на оценке производительности GPT-4, самой мощной на сегодняшний день LLM, в текстовых приложениях для анализа радиологических отчетов, сравнивая её с современными специализированными моделями для радиологии. Исследуя различные стратегии промптинга, мы оценили GPT-4 на широком спектре типичных задач радиологии и обнаружили, что GPT-4 либо превосходит, либо находится на одном уровне с текущими передовыми моделями для радиологии. При использовании zero-shot промптинга GPT-4 уже демонстрирует значительное улучшение (примерно 10% абсолютного прироста) по сравнению с радиологическими моделями в задачах классификации временной схожести предложений (точность) и логического вывода на естественном языке (F_1). Для задач, требующих изучения специфического стиля или структуры данных (например, суммирования результатов), GPT-4 улучшает свои показатели с помощью примеров и достигает уровня контролируемых передовых моделей. Наш подробный анализ ошибок, проведенный с участием сертифицированного радиолога, показывает, что GPT-4 обладает достаточным уровнем знаний в области радиологии, допуская лишь редкие ошибки в сложных контекстах, требующих тонкого понимания предметной области. В задачах суммирования результатов выводы GPT-4 в целом сопоставимы с существующими рукописными заключениями.
English
The recent success of general-domain large language models (LLMs) has
significantly changed the natural language processing paradigm towards a
unified foundation model across domains and applications. In this paper, we
focus on assessing the performance of GPT-4, the most capable LLM so far, on
the text-based applications for radiology reports, comparing against
state-of-the-art (SOTA) radiology-specific models. Exploring various prompting
strategies, we evaluated GPT-4 on a diverse range of common radiology tasks and
we found GPT-4 either outperforms or is on par with current SOTA radiology
models. With zero-shot prompting, GPT-4 already obtains substantial gains
(approx 10% absolute improvement) over radiology models in temporal sentence
similarity classification (accuracy) and natural language inference (F_1).
For tasks that require learning dataset-specific style or schema (e.g. findings
summarisation), GPT-4 improves with example-based prompting and matches
supervised SOTA. Our extensive error analysis with a board-certified
radiologist shows GPT-4 has a sufficient level of radiology knowledge with only
occasional errors in complex context that require nuanced domain knowledge. For
findings summarisation, GPT-4 outputs are found to be overall comparable with
existing manually-written impressions.