Мультимодальный ChatGPT для медицинских приложений: экспериментальное исследование GPT-4V

Аннотация

В данной статье мы проводим критическую оценку возможностей современной мультимодальной модели большого языка, а именно GPT-4 с функцией Vision (GPT-4V), в задаче визуального ответа на вопросы (Visual Question Answering, VQA). Наши эксперименты всесторонне исследуют способность GPT-4V отвечать на вопросы, связанные с изображениями, используя данные из патологии и радиологии, охватывающие 11 модальностей (например, микроскопия, дерматоскопия, рентген, КТ и др.) и пятнадцать объектов интереса (мозг, печень, легкие и др.). Наши наборы данных включают широкий спектр медицинских запросов, включая шестнадцать различных типов вопросов. В ходе оценки мы разработали текстовые запросы для GPT-4V, направляя её на синтез визуальной и текстовой информации. Эксперименты с оценкой точности показывают, что текущая версия GPT-4V не рекомендуется для использования в реальной диагностике из-за её ненадёжной и недостаточной точности в ответах на диагностические медицинские вопросы. Кроме того, мы выделяем семь уникальных аспектов поведения GPT-4V в медицинской VQA, подчеркивая её ограничения в этой сложной области. Полные детали наших оценочных случаев доступны по адресу https://github.com/ZhilingYan/GPT4V-Medical-Report.

English

In this paper, we critically evaluate the capabilities of the state-of-the-art multimodal large language model, i.e., GPT-4 with Vision (GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly assess GPT-4V's proficiency in answering questions paired with images using both pathology and radiology datasets from 11 modalities (e.g. Microscopy, Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver, lung, etc.). Our datasets encompass a comprehensive range of medical inquiries, including sixteen distinct question types. Throughout our evaluations, we devised textual prompts for GPT-4V, directing it to synergize visual and textual information. The experiments with accuracy score conclude that the current version of GPT-4V is not recommended for real-world diagnostics due to its unreliable and suboptimal accuracy in responding to diagnostic medical questions. In addition, we delineate seven unique facets of GPT-4V's behavior in medical VQA, highlighting its constraints within this complex arena. The complete details of our evaluation cases are accessible at https://github.com/ZhilingYan/GPT4V-Medical-Report.

Мультимодальный ChatGPT для медицинских приложений: экспериментальное исследование GPT-4V

Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V

Аннотация

Support