ChatPaper.aiChatPaper

GMAI-VL & GMAI-VL-5.5M: Een Groot Visie-Taalmodel en Een Uitgebreide Multimodale Dataset Richting Algemene Medische AI

GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

November 21, 2024
Auteurs: Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
cs.AI

Samenvatting

Ondanks aanzienlijke vooruitgang in algemene kunstmatige intelligentie, zoals GPT-4, blijft hun effectiviteit in het medische domein (algemene medische AI, GMAI) beperkt vanwege het ontbreken van gespecialiseerde medische kennis. Om dit probleem aan te pakken, presenteren we GMAI-VL-5.5M, een uitgebreide multimodale medische dataset gecreëerd door honderden gespecialiseerde medische datasets om te zetten in zorgvuldig geconstrueerde afbeelding-tekst paren. Deze dataset biedt uitgebreide dekking van taken, diverse modaliteiten en hoogwaardige afbeelding-tekst gegevens. Voortbouwend op deze multimodale dataset stellen we GMAI-VL voor, een algemeen medisch visie-taalmodel met een progressieve drie-fasen trainingsstrategie. Deze aanpak verbetert aanzienlijk de mogelijkheden van het model door visuele en tekstuele informatie te integreren, waardoor het vermogen om multimodale gegevens te verwerken en nauwkeurige diagnoses en klinische besluitvorming te ondersteunen, wordt verbeterd. Experimentele evaluaties tonen aan dat GMAI-VL state-of-the-art resultaten behaalt op een breed scala van multimodale medische taken, zoals visuele vraagbeantwoording en medische beeld diagnose. Onze bijdragen omvatten de ontwikkeling van de GMAI-VL-5.5M dataset, de introductie van het GMAI-VL model, en het vaststellen van nieuwe benchmarks in meerdere medische domeinen. Code en dataset zullen worden vrijgegeven op https://github.com/uni-medical/GMAI-VL.
English
Despite significant advancements in general artificial intelligence, such as GPT-4, their effectiveness in the medical domain (general medical AI, GMAI) remains constrained due to the absence of specialized medical knowledge. To address this challenge, we present GMAI-VL-5.5M, a comprehensive multimodal medical dataset created by converting hundreds of specialized medical datasets into meticulously constructed image-text pairs. This dataset features comprehensive task coverage, diverse modalities, and high-quality image-text data. Building upon this multimodal dataset, we propose GMAI-VL, a general medical vision-language model with a progressively three-stage training strategy. This approach significantly enhances the model's ability by integrating visual and textual information, thereby improving its ability to process multimodal data and support accurate diagnosis and clinical decision-making. Experimental evaluations demonstrate that GMAI-VL achieves state-of-the-art results across a wide range of multimodal medical tasks, such as visual question answering and medical image diagnosis. Our contributions include the development of the GMAI-VL-5.5M dataset, the introduction of the GMAI-VL model, and the establishment of new benchmarks in multiple medical domains. Code and dataset will be released at https://github.com/uni-medical/GMAI-VL.

Summary

AI-Generated Summary

PDF392November 26, 2024