ChatGPT multimodal pour les applications médicales : une étude expérimentale de GPT-4V
Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V
October 29, 2023
Auteurs: Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li, Lichao Sun
cs.AI
Résumé
Dans cet article, nous évaluons de manière critique les capacités du modèle de langage multimodal de pointe, à savoir GPT-4 avec Vision (GPT-4V), sur la tâche de Réponse à des Questions Visuelles (VQA). Nos expériences examinent en profondeur la compétence de GPT-4V à répondre à des questions associées à des images en utilisant des ensembles de données de pathologie et de radiologie provenant de 11 modalités (par exemple, microscopie, dermoscopie, radiographie, scanner, etc.) et quinze objets d'intérêt (cerveau, foie, poumon, etc.). Nos ensembles de données couvrent un large éventail de questions médicales, incluant seize types de questions distincts. Tout au long de nos évaluations, nous avons conçu des invites textuelles pour GPT-4V, l'incitant à combiner les informations visuelles et textuelles. Les expériences basées sur le score de précision concluent que la version actuelle de GPT-4V n'est pas recommandée pour des diagnostics en situation réelle en raison de sa précision peu fiable et sous-optimale dans la réponse aux questions médicales diagnostiques. De plus, nous décrivons sept aspects uniques du comportement de GPT-4V dans le cadre de la VQA médicale, mettant en lumière ses limites dans ce domaine complexe. Les détails complets de nos cas d'évaluation sont accessibles à l'adresse suivante : https://github.com/ZhilingYan/GPT4V-Medical-Report.
English
In this paper, we critically evaluate the capabilities of the
state-of-the-art multimodal large language model, i.e., GPT-4 with Vision
(GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly
assess GPT-4V's proficiency in answering questions paired with images using
both pathology and radiology datasets from 11 modalities (e.g. Microscopy,
Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver,
lung, etc.). Our datasets encompass a comprehensive range of medical inquiries,
including sixteen distinct question types. Throughout our evaluations, we
devised textual prompts for GPT-4V, directing it to synergize visual and
textual information. The experiments with accuracy score conclude that the
current version of GPT-4V is not recommended for real-world diagnostics due to
its unreliable and suboptimal accuracy in responding to diagnostic medical
questions. In addition, we delineate seven unique facets of GPT-4V's behavior
in medical VQA, highlighting its constraints within this complex arena. The
complete details of our evaluation cases are accessible at
https://github.com/ZhilingYan/GPT4V-Medical-Report.Summary
AI-Generated Summary