ChatGPT Multimodale per Applicazioni Mediche: uno Studio Sperimentale su GPT-4V
Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V
October 29, 2023
Autori: Zhiling Yan, Kai Zhang, Rong Zhou, Lifang He, Xiang Li, Lichao Sun
cs.AI
Abstract
In questo articolo, valutiamo criticamente le capacità del modello linguistico multimodale all'avanguardia, ovvero GPT-4 con Vision (GPT-4V), nel compito di Visual Question Answering (VQA). I nostri esperimenti analizzano approfonditamente la competenza di GPT-4V nel rispondere a domande associate a immagini utilizzando sia dataset di patologia che di radiologia provenienti da 11 modalità (ad esempio Microscopia, Dermoscopia, Radiografia, TC, ecc.) e quindici oggetti di interesse (cervello, fegato, polmoni, ecc.). I nostri dataset coprono un'ampia gamma di interrogativi medici, includendo sedici tipologie distinte di domande. Durante le nostre valutazioni, abbiamo progettato prompt testuali per GPT-4V, indirizzandolo a integrare informazioni visive e testuali. Gli esperimenti con punteggi di accuratezza concludono che l'attuale versione di GPT-4V non è raccomandata per la diagnostica nel mondo reale a causa della sua affidabilità inaffidabile e di un'accuratezza subottimale nel rispondere a domande mediche diagnostiche. Inoltre, delineiamo sette aspetti unici del comportamento di GPT-4V nel VQA medico, evidenziandone i limiti in questo ambito complesso. I dettagli completi dei nostri casi di valutazione sono accessibili all'indirizzo https://github.com/ZhilingYan/GPT4V-Medical-Report.
English
In this paper, we critically evaluate the capabilities of the
state-of-the-art multimodal large language model, i.e., GPT-4 with Vision
(GPT-4V), on Visual Question Answering (VQA) task. Our experiments thoroughly
assess GPT-4V's proficiency in answering questions paired with images using
both pathology and radiology datasets from 11 modalities (e.g. Microscopy,
Dermoscopy, X-ray, CT, etc.) and fifteen objects of interests (brain, liver,
lung, etc.). Our datasets encompass a comprehensive range of medical inquiries,
including sixteen distinct question types. Throughout our evaluations, we
devised textual prompts for GPT-4V, directing it to synergize visual and
textual information. The experiments with accuracy score conclude that the
current version of GPT-4V is not recommended for real-world diagnostics due to
its unreliable and suboptimal accuracy in responding to diagnostic medical
questions. In addition, we delineate seven unique facets of GPT-4V's behavior
in medical VQA, highlighting its constraints within this complex arena. The
complete details of our evaluation cases are accessible at
https://github.com/ZhilingYan/GPT4V-Medical-Report.