Multimodale ChatGPT voor medische toepassingen: een experimentele studie van GPT-4V
Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V
October 29, 2023
Auteurs: Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li, Lichao Sun
cs.AI
Samenvatting
In dit artikel evalueren we kritisch de mogelijkheden van het state-of-the-art multimodale grote taalmodel, namelijk GPT-4 met Vision (GPT-4V), voor de taak van Visuele Vraagbeantwoording (VQA). Onze experimenten beoordelen grondig de vaardigheid van GPT-4V om vragen te beantwoorden die gepaard gaan met afbeeldingen, waarbij we gebruikmaken van zowel pathologie- als radiologie-datasets uit 11 modaliteiten (bijvoorbeeld Microscopie, Dermoscopie, X-ray, CT, etc.) en vijftien objecten van belang (hersenen, lever, longen, etc.). Onze datasets omvatten een breed scala aan medische vragen, waaronder zestien verschillende vraagtypen. Gedurende onze evaluaties hebben we tekstuele prompts ontworpen voor GPT-4V, om het te sturen bij het combineren van visuele en tekstuele informatie. De experimenten met nauwkeurigheidsscores concluderen dat de huidige versie van GPT-4V niet wordt aanbevolen voor real-world diagnostiek vanwege zijn onbetrouwbare en suboptimale nauwkeurigheid bij het beantwoorden van diagnostische medische vragen. Daarnaast beschrijven we zeven unieke aspecten van het gedrag van GPT-4V in medische VQA, waarbij we de beperkingen binnen dit complexe domein benadrukken. De volledige details van onze evaluatiegevallen zijn toegankelijk op https://github.com/ZhilingYan/GPT4V-Medical-Report.
English
In this paper, we critically evaluate the capabilities of the
state-of-the-art multimodal large language model, i.e., GPT-4 with Vision
(GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly
assess GPT-4V's proficiency in answering questions paired with images using
both pathology and radiology datasets from 11 modalities (e.g. Microscopy,
Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver,
lung, etc.). Our datasets encompass a comprehensive range of medical inquiries,
including sixteen distinct question types. Throughout our evaluations, we
devised textual prompts for GPT-4V, directing it to synergize visual and
textual information. The experiments with accuracy score conclude that the
current version of GPT-4V is not recommended for real-world diagnostics due to
its unreliable and suboptimal accuracy in responding to diagnostic medical
questions. In addition, we delineate seven unique facets of GPT-4V's behavior
in medical VQA, highlighting its constraints within this complex arena. The
complete details of our evaluation cases are accessible at
https://github.com/ZhilingYan/GPT4V-Medical-Report.