ChatGPT Multimodal para Aplicações Médicas: Um Estudo Experimental do GPT-4V
Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V
October 29, 2023
Autores: Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li, Lichao Sun
cs.AI
Resumo
Neste artigo, avaliamos criticamente as capacidades do modelo de linguagem multimodal de última geração, ou seja, o GPT-4 com Visão (GPT-4V), na tarefa de Resposta a Perguntas Visuais (VQA). Nossos experimentos avaliam minuciosamente a proficiência do GPT-4V em responder a perguntas associadas a imagens, utilizando conjuntos de dados de patologia e radiologia de 11 modalidades (por exemplo, Microscopia, Dermatoscopia, Raio-X, TC, etc.) e quinze objetos de interesse (cérebro, fígado, pulmão, etc.). Nossos conjuntos de dados abrangem uma ampla gama de questionamentos médicos, incluindo dezesseis tipos distintos de perguntas. Durante nossas avaliações, elaboramos prompts textuais para o GPT-4V, direcionando-o a integrar informações visuais e textuais. Os experimentos com pontuação de acurácia concluem que a versão atual do GPT-4V não é recomendada para diagnósticos no mundo real devido à sua precisão pouco confiável e subótima ao responder a perguntas médicas diagnósticas. Além disso, delineamos sete aspectos únicos do comportamento do GPT-4V em VQA médica, destacando suas limitações nesse campo complexo. Os detalhes completos de nossos casos de avaliação estão disponíveis em https://github.com/ZhilingYan/GPT4V-Medical-Report.
English
In this paper, we critically evaluate the capabilities of the
state-of-the-art multimodal large language model, i.e., GPT-4 with Vision
(GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly
assess GPT-4V's proficiency in answering questions paired with images using
both pathology and radiology datasets from 11 modalities (e.g. Microscopy,
Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver,
lung, etc.). Our datasets encompass a comprehensive range of medical inquiries,
including sixteen distinct question types. Throughout our evaluations, we
devised textual prompts for GPT-4V, directing it to synergize visual and
textual information. The experiments with accuracy score conclude that the
current version of GPT-4V is not recommended for real-world diagnostics due to
its unreliable and suboptimal accuracy in responding to diagnostic medical
questions. In addition, we delineate seven unique facets of GPT-4V's behavior
in medical VQA, highlighting its constraints within this complex arena. The
complete details of our evaluation cases are accessible at
https://github.com/ZhilingYan/GPT4V-Medical-Report.