ChatPaper.aiChatPaper

GPT-4의 방사선학 분야에서의 한계 탐구

Exploring the Boundaries of GPT-4 in Radiology

October 23, 2023
저자: Qianchu Liu, Stephanie Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Maria Teodora Wetscherek, Robert Tinn, Harshita Sharma, Fernando Pérez-García, Anton Schwaighofer, Pranav Rajpurkar, Sameer Tajdin Khanna, Hoifung Poon, Naoto Usuyama, Anja Thieme, Aditya V. Nori, Matthew P. Lungren, Ozan Oktay, Javier Alvarez-Valle
cs.AI

초록

최근 일반 도메인 대규모 언어 모델(LLM)의 성공은 자연어 처리 패러다임을 도메인과 애플리케이션 전반에 걸친 통합 기반 모델로 크게 변화시켰습니다. 본 논문에서는 현재까지 가장 강력한 LLM인 GPT-4의 성능을 평가하는 데 초점을 맞추어, 텍스트 기반의 방사선 보고서 애플리케이션에서 최신 기술(SOTA)의 방사선 특화 모델과 비교합니다. 다양한 프롬프트 전략을 탐구하며, GPT-4를 다양한 일반적인 방사선 작업에 대해 평가한 결과, GPT-4는 현재의 SOTA 방사선 모델을 능가하거나 동등한 성능을 보였습니다. 제로샷 프롬프팅에서 GPT-4는 시간적 문장 유사성 분류(정확도)와 자연어 추론(F_1)에서 방사선 모델 대비 상당한 성능 향상(약 10% 절대적 개선)을 달성했습니다. 데이터셋 특정 스타일이나 스키마를 학습해야 하는 작업(예: 발견 요약)의 경우, GPT-4는 예제 기반 프롬프팅을 통해 개선되었으며 지도 학습 SOTA와 동등한 성능을 보였습니다. 보드 인증 방사선 전문의와 함께 진행한 광범위한 오류 분석 결과, GPT-4는 복잡한 맥락에서 미묘한 도메인 지식을 요구하는 경우를 제외하고는 충분한 수준의 방사선 지식을 갖추고 있음이 확인되었습니다. 발견 요약 작업에서 GPT-4의 출력은 기존의 수동으로 작성된 요약과 전반적으로 비슷한 수준으로 평가되었습니다.
English
The recent success of general-domain large language models (LLMs) has significantly changed the natural language processing paradigm towards a unified foundation model across domains and applications. In this paper, we focus on assessing the performance of GPT-4, the most capable LLM so far, on the text-based applications for radiology reports, comparing against state-of-the-art (SOTA) radiology-specific models. Exploring various prompting strategies, we evaluated GPT-4 on a diverse range of common radiology tasks and we found GPT-4 either outperforms or is on par with current SOTA radiology models. With zero-shot prompting, GPT-4 already obtains substantial gains (approx 10% absolute improvement) over radiology models in temporal sentence similarity classification (accuracy) and natural language inference (F_1). For tasks that require learning dataset-specific style or schema (e.g. findings summarisation), GPT-4 improves with example-based prompting and matches supervised SOTA. Our extensive error analysis with a board-certified radiologist shows GPT-4 has a sufficient level of radiology knowledge with only occasional errors in complex context that require nuanced domain knowledge. For findings summarisation, GPT-4 outputs are found to be overall comparable with existing manually-written impressions.
PDF92December 15, 2024