ChatPaper.aiChatPaper

Het verkennen van de grenzen van GPT-4 in de radiologie

Exploring the Boundaries of GPT-4 in Radiology

October 23, 2023
Auteurs: Qianchu Liu, Stephanie Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Maria Teodora Wetscherek, Robert Tinn, Harshita Sharma, Fernando Pérez-García, Anton Schwaighofer, Pranav Rajpurkar, Sameer Tajdin Khanna, Hoifung Poon, Naoto Usuyama, Anja Thieme, Aditya V. Nori, Matthew P. Lungren, Ozan Oktay, Javier Alvarez-Valle
cs.AI

Samenvatting

Het recente succes van grote taalmodelen (LLMs) voor algemene domeinen heeft het paradigma van natuurlijke taalverwerking aanzienlijk veranderd in de richting van een uniform fundamenteel model voor verschillende domeinen en toepassingen. In dit artikel richten we ons op het beoordelen van de prestaties van GPT-4, het meest capabele LLM tot nu toe, voor tekstgebaseerde toepassingen voor radiologieverslagen, waarbij we het vergelijken met state-of-the-art (SOTA) radiologiespecifieke modellen. Door verschillende promptingstrategieën te verkennen, hebben we GPT-4 geëvalueerd op een breed scala aan veelvoorkomende radiologietaken, en we ontdekten dat GPT-4 ofwel beter presteert of op gelijk niveau staat met de huidige SOTA-radiologiemodellen. Met zero-shot prompting behaalt GPT-4 al aanzienlijke verbeteringen (ongeveer 10% absolute verbetering) ten opzichte van radiologiemodellen in classificatie van temporele zinsgelijkenis (nauwkeurigheid) en natuurlijke taal inferentie (F_1). Voor taken die het leren van dataset-specifieke stijl of schema vereisen (bijv. samenvatting van bevindingen), verbetert GPT-4 met voorbeeldgebaseerde prompting en evenaart het de supervised SOTA. Onze uitgebreide foutenanalyse met een gecertificeerde radioloog toont aan dat GPT-4 over voldoende radiologische kennis beschikt, met slechts af en toe fouten in complexe contexten die genuanceerde domeinkennis vereisen. Voor de samenvatting van bevindingen blijken de uitvoer van GPT-4 over het algemeen vergelijkbaar te zijn met bestaande handgeschreven impressies.
English
The recent success of general-domain large language models (LLMs) has significantly changed the natural language processing paradigm towards a unified foundation model across domains and applications. In this paper, we focus on assessing the performance of GPT-4, the most capable LLM so far, on the text-based applications for radiology reports, comparing against state-of-the-art (SOTA) radiology-specific models. Exploring various prompting strategies, we evaluated GPT-4 on a diverse range of common radiology tasks and we found GPT-4 either outperforms or is on par with current SOTA radiology models. With zero-shot prompting, GPT-4 already obtains substantial gains (approx 10% absolute improvement) over radiology models in temporal sentence similarity classification (accuracy) and natural language inference (F_1). For tasks that require learning dataset-specific style or schema (e.g. findings summarisation), GPT-4 improves with example-based prompting and matches supervised SOTA. Our extensive error analysis with a board-certified radiologist shows GPT-4 has a sufficient level of radiology knowledge with only occasional errors in complex context that require nuanced domain knowledge. For findings summarisation, GPT-4 outputs are found to be overall comparable with existing manually-written impressions.
PDF92December 14, 2025