ChatPaper.aiChatPaper

ChatGPT multimodal para aplicaciones médicas: un estudio experimental de GPT-4V

Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V

October 29, 2023
Autores: Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li, Lichao Sun
cs.AI

Resumen

En este artículo, evaluamos críticamente las capacidades del modelo de lenguaje multimodal más avanzado, es decir, GPT-4 con Visión (GPT-4V), en la tarea de Respuesta a Preguntas Visuales (VQA, por sus siglas en inglés). Nuestros experimentos evalúan exhaustivamente la competencia de GPT-4V para responder preguntas asociadas con imágenes utilizando conjuntos de datos de patología y radiología de 11 modalidades (por ejemplo, Microscopía, Dermatoscopía, Rayos X, Tomografía Computarizada, etc.) y quince objetos de interés (cerebro, hígado, pulmón, etc.). Nuestros conjuntos de datos abarcan una amplia gama de consultas médicas, incluyendo dieciséis tipos distintos de preguntas. A lo largo de nuestras evaluaciones, diseñamos indicaciones textuales para GPT-4V, dirigiendo al modelo a integrar información visual y textual. Los experimentos, basados en puntajes de precisión, concluyen que la versión actual de GPT-4V no es recomendable para diagnósticos en el mundo real debido a su precisión poco confiable y subóptima al responder preguntas médicas de diagnóstico. Además, delineamos siete aspectos únicos del comportamiento de GPT-4V en VQA médica, destacando sus limitaciones dentro de este complejo ámbito. Los detalles completos de nuestros casos de evaluación están disponibles en https://github.com/ZhilingYan/GPT4V-Medical-Report.
English
In this paper, we critically evaluate the capabilities of the state-of-the-art multimodal large language model, i.e., GPT-4 with Vision (GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly assess GPT-4V's proficiency in answering questions paired with images using both pathology and radiology datasets from 11 modalities (e.g. Microscopy, Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver, lung, etc.). Our datasets encompass a comprehensive range of medical inquiries, including sixteen distinct question types. Throughout our evaluations, we devised textual prompts for GPT-4V, directing it to synergize visual and textual information. The experiments with accuracy score conclude that the current version of GPT-4V is not recommended for real-world diagnostics due to its unreliable and suboptimal accuracy in responding to diagnostic medical questions. In addition, we delineate seven unique facets of GPT-4V's behavior in medical VQA, highlighting its constraints within this complex arena. The complete details of our evaluation cases are accessible at https://github.com/ZhilingYan/GPT4V-Medical-Report.

Summary

AI-Generated Summary

PDF81December 15, 2024