Multimodales ChatGPT für medizinische Anwendungen: eine experimentelle Studie zu GPT-4V
Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V
October 29, 2023
Autoren: Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li, Lichao Sun
cs.AI
Zusammenfassung
In diesem Papier evaluieren wir kritisch die Fähigkeiten des modernsten multimodalen Large Language Models, nämlich GPT-4 mit Vision (GPT-4V), in Bezug auf die Aufgabe des Visual Question Answering (VQA). Unsere Experimente untersuchen umfassend die Kompetenz von GPT-4V bei der Beantwortung von Fragen, die mit Bildern aus Pathologie- und Radiologie-Datensätzen von 11 Modalitäten (z.B. Mikroskopie, Dermatoskopie, Röntgen, CT, etc.) und fünfzehn Objekten von Interesse (Gehirn, Leber, Lunge, etc.) gepaart sind. Unsere Datensätze umfassen ein breites Spektrum medizinischer Fragestellungen, einschließlich sechzehn verschiedener Fragetypen. Während unserer Evaluierungen entwickelten wir textuelle Prompts für GPT-4V, um es anzuleiten, visuelle und textuelle Informationen zu kombinieren. Die Experimente mit Genauigkeitswerten kommen zu dem Schluss, dass die aktuelle Version von GPT-4V aufgrund ihrer unzuverlässigen und suboptimalen Genauigkeit bei der Beantwortung diagnostischer medizinischer Fragen nicht für die reale Diagnostik empfohlen wird. Darüber hinaus skizzieren wir sieben einzigartige Aspekte des Verhaltens von GPT-4V im medizinischen VQA und heben seine Grenzen in diesem komplexen Bereich hervor. Die vollständigen Details unserer Evaluierungsfälle sind unter https://github.com/ZhilingYan/GPT4V-Medical-Report zugänglich.
English
In this paper, we critically evaluate the capabilities of the
state-of-the-art multimodal large language model, i.e., GPT-4 with Vision
(GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly
assess GPT-4V's proficiency in answering questions paired with images using
both pathology and radiology datasets from 11 modalities (e.g. Microscopy,
Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver,
lung, etc.). Our datasets encompass a comprehensive range of medical inquiries,
including sixteen distinct question types. Throughout our evaluations, we
devised textual prompts for GPT-4V, directing it to synergize visual and
textual information. The experiments with accuracy score conclude that the
current version of GPT-4V is not recommended for real-world diagnostics due to
its unreliable and suboptimal accuracy in responding to diagnostic medical
questions. In addition, we delineate seven unique facets of GPT-4V's behavior
in medical VQA, highlighting its constraints within this complex arena. The
complete details of our evaluation cases are accessible at
https://github.com/ZhilingYan/GPT4V-Medical-Report.Summary
AI-Generated Summary