ChatGPT multimodal pour les applications médicales : une étude expérimentale de GPT-4V

papers.abstract

Dans cet article, nous évaluons de manière critique les capacités du modèle de langage multimodal de pointe, à savoir GPT-4 avec Vision (GPT-4V), sur la tâche de Réponse à des Questions Visuelles (VQA). Nos expériences examinent en profondeur la compétence de GPT-4V à répondre à des questions associées à des images en utilisant des ensembles de données de pathologie et de radiologie provenant de 11 modalités (par exemple, microscopie, dermoscopie, radiographie, scanner, etc.) et quinze objets d'intérêt (cerveau, foie, poumon, etc.). Nos ensembles de données couvrent un large éventail de questions médicales, incluant seize types de questions distincts. Tout au long de nos évaluations, nous avons conçu des invites textuelles pour GPT-4V, l'incitant à combiner les informations visuelles et textuelles. Les expériences basées sur le score de précision concluent que la version actuelle de GPT-4V n'est pas recommandée pour des diagnostics en situation réelle en raison de sa précision peu fiable et sous-optimale dans la réponse aux questions médicales diagnostiques. De plus, nous décrivons sept aspects uniques du comportement de GPT-4V dans le cadre de la VQA médicale, mettant en lumière ses limites dans ce domaine complexe. Les détails complets de nos cas d'évaluation sont accessibles à l'adresse suivante : https://github.com/ZhilingYan/GPT4V-Medical-Report.

English

In this paper, we critically evaluate the capabilities of the state-of-the-art multimodal large language model, i.e., GPT-4 with Vision (GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly assess GPT-4V's proficiency in answering questions paired with images using both pathology and radiology datasets from 11 modalities (e.g. Microscopy, Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver, lung, etc.). Our datasets encompass a comprehensive range of medical inquiries, including sixteen distinct question types. Throughout our evaluations, we devised textual prompts for GPT-4V, directing it to synergize visual and textual information. The experiments with accuracy score conclude that the current version of GPT-4V is not recommended for real-world diagnostics due to its unreliable and suboptimal accuracy in responding to diagnostic medical questions. In addition, we delineate seven unique facets of GPT-4V's behavior in medical VQA, highlighting its constraints within this complex arena. The complete details of our evaluation cases are accessible at https://github.com/ZhilingYan/GPT4V-Medical-Report.

ChatGPT multimodal pour les applications médicales : une étude expérimentale de GPT-4V

Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V

papers.abstract

Support