Explorando los límites de GPT-4 en radiología
Exploring the Boundaries of GPT-4 in Radiology
October 23, 2023
Autores: Qianchu Liu, Stephanie Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Maria Teodora Wetscherek, Robert Tinn, Harshita Sharma, Fernando Pérez-García, Anton Schwaighofer, Pranav Rajpurkar, Sameer Tajdin Khanna, Hoifung Poon, Naoto Usuyama, Anja Thieme, Aditya V. Nori, Matthew P. Lungren, Ozan Oktay, Javier Alvarez-Valle
cs.AI
Resumen
El reciente éxito de los modelos de lenguaje de gran escala (LLMs) de dominio general ha cambiado significativamente el paradigma del procesamiento del lenguaje natural hacia un modelo base unificado que abarca múltiples dominios y aplicaciones. En este artículo, nos centramos en evaluar el rendimiento de GPT-4, el LLM más avanzado hasta la fecha, en aplicaciones basadas en texto para informes de radiología, comparándolo con modelos específicos de radiología de última generación (SOTA). Explorando diversas estrategias de prompting, evaluamos GPT-4 en una amplia gama de tareas comunes en radiología y encontramos que GPT-4 supera o iguala el rendimiento de los modelos SOTA actuales en radiología. Con prompting de cero disparos (zero-shot), GPT-4 ya obtiene mejoras sustanciales (aproximadamente un 10% de mejora absoluta) sobre los modelos de radiología en la clasificación de similitud de oraciones temporales (precisión) e inferencia en lenguaje natural (F_1). Para tareas que requieren aprender el estilo o esquema específico de un conjunto de datos (por ejemplo, la síntesis de hallazgos), GPT-4 mejora con prompting basado en ejemplos y alcanza el nivel SOTA supervisado. Nuestro extenso análisis de errores realizado con un radiólogo certificado muestra que GPT-4 posee un nivel suficiente de conocimiento en radiología, cometiendo errores ocasionales en contextos complejos que requieren un conocimiento profundo del dominio. En la síntesis de hallazgos, las salidas de GPT-4 resultan ser, en general, comparables con las impresiones escritas manualmente existentes.
English
The recent success of general-domain large language models (LLMs) has
significantly changed the natural language processing paradigm towards a
unified foundation model across domains and applications. In this paper, we
focus on assessing the performance of GPT-4, the most capable LLM so far, on
the text-based applications for radiology reports, comparing against
state-of-the-art (SOTA) radiology-specific models. Exploring various prompting
strategies, we evaluated GPT-4 on a diverse range of common radiology tasks and
we found GPT-4 either outperforms or is on par with current SOTA radiology
models. With zero-shot prompting, GPT-4 already obtains substantial gains
(approx 10% absolute improvement) over radiology models in temporal sentence
similarity classification (accuracy) and natural language inference (F_1).
For tasks that require learning dataset-specific style or schema (e.g. findings
summarisation), GPT-4 improves with example-based prompting and matches
supervised SOTA. Our extensive error analysis with a board-certified
radiologist shows GPT-4 has a sufficient level of radiology knowledge with only
occasional errors in complex context that require nuanced domain knowledge. For
findings summarisation, GPT-4 outputs are found to be overall comparable with
existing manually-written impressions.