ChatGPT Multimodal para Aplicações Médicas: Um Estudo Experimental do GPT-4V

Resumo

Neste artigo, avaliamos criticamente as capacidades do modelo de linguagem multimodal de última geração, ou seja, o GPT-4 com Visão (GPT-4V), na tarefa de Resposta a Perguntas Visuais (VQA). Nossos experimentos avaliam minuciosamente a proficiência do GPT-4V em responder a perguntas associadas a imagens, utilizando conjuntos de dados de patologia e radiologia de 11 modalidades (por exemplo, Microscopia, Dermatoscopia, Raio-X, TC, etc.) e quinze objetos de interesse (cérebro, fígado, pulmão, etc.). Nossos conjuntos de dados abrangem uma ampla gama de questionamentos médicos, incluindo dezesseis tipos distintos de perguntas. Durante nossas avaliações, elaboramos prompts textuais para o GPT-4V, direcionando-o a integrar informações visuais e textuais. Os experimentos com pontuação de acurácia concluem que a versão atual do GPT-4V não é recomendada para diagnósticos no mundo real devido à sua precisão pouco confiável e subótima ao responder a perguntas médicas diagnósticas. Além disso, delineamos sete aspectos únicos do comportamento do GPT-4V em VQA médica, destacando suas limitações nesse campo complexo. Os detalhes completos de nossos casos de avaliação estão disponíveis em https://github.com/ZhilingYan/GPT4V-Medical-Report.

English

In this paper, we critically evaluate the capabilities of the state-of-the-art multimodal large language model, i.e., GPT-4 with Vision (GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly assess GPT-4V's proficiency in answering questions paired with images using both pathology and radiology datasets from 11 modalities (e.g. Microscopy, Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver, lung, etc.). Our datasets encompass a comprehensive range of medical inquiries, including sixteen distinct question types. Throughout our evaluations, we devised textual prompts for GPT-4V, directing it to synergize visual and textual information. The experiments with accuracy score conclude that the current version of GPT-4V is not recommended for real-world diagnostics due to its unreliable and suboptimal accuracy in responding to diagnostic medical questions. In addition, we delineate seven unique facets of GPT-4V's behavior in medical VQA, highlighting its constraints within this complex arena. The complete details of our evaluation cases are accessible at https://github.com/ZhilingYan/GPT4V-Medical-Report.

ChatGPT Multimodal para Aplicações Médicas: Um Estudo Experimental do GPT-4V

Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V

Resumo

Support