Мультимодальный ChatGPT для медицинских приложений: экспериментальное исследование GPT-4V
Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V
October 29, 2023
Авторы: Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li, Lichao Sun
cs.AI
Аннотация
В данной статье мы проводим критическую оценку возможностей современной мультимодальной модели большого языка, а именно GPT-4 с функцией Vision (GPT-4V), в задаче визуального ответа на вопросы (Visual Question Answering, VQA). Наши эксперименты всесторонне исследуют способность GPT-4V отвечать на вопросы, связанные с изображениями, используя данные из патологии и радиологии, охватывающие 11 модальностей (например, микроскопия, дерматоскопия, рентген, КТ и др.) и пятнадцать объектов интереса (мозг, печень, легкие и др.). Наши наборы данных включают широкий спектр медицинских запросов, включая шестнадцать различных типов вопросов. В ходе оценки мы разработали текстовые запросы для GPT-4V, направляя её на синтез визуальной и текстовой информации. Эксперименты с оценкой точности показывают, что текущая версия GPT-4V не рекомендуется для использования в реальной диагностике из-за её ненадёжной и недостаточной точности в ответах на диагностические медицинские вопросы. Кроме того, мы выделяем семь уникальных аспектов поведения GPT-4V в медицинской VQA, подчеркивая её ограничения в этой сложной области. Полные детали наших оценочных случаев доступны по адресу https://github.com/ZhilingYan/GPT4V-Medical-Report.
English
In this paper, we critically evaluate the capabilities of the
state-of-the-art multimodal large language model, i.e., GPT-4 with Vision
(GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly
assess GPT-4V's proficiency in answering questions paired with images using
both pathology and radiology datasets from 11 modalities (e.g. Microscopy,
Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver,
lung, etc.). Our datasets encompass a comprehensive range of medical inquiries,
including sixteen distinct question types. Throughout our evaluations, we
devised textual prompts for GPT-4V, directing it to synergize visual and
textual information. The experiments with accuracy score conclude that the
current version of GPT-4V is not recommended for real-world diagnostics due to
its unreliable and suboptimal accuracy in responding to diagnostic medical
questions. In addition, we delineate seven unique facets of GPT-4V's behavior
in medical VQA, highlighting its constraints within this complex arena. The
complete details of our evaluation cases are accessible at
https://github.com/ZhilingYan/GPT4V-Medical-Report.Summary
AI-Generated Summary