GMAI-VL & GMAI-VL-5.5M : Un grand modèle vision-langage et un ensemble de données multimodal complet vers l'IA médicale générale
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI
November 21, 2024
Auteurs: Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
cs.AI
Résumé
Malgré les avancées significatives en intelligence artificielle générale, telles que GPT-4, leur efficacité dans le domaine médical (intelligence artificielle médicale générale, IAMG) reste limitée en raison de l'absence de connaissances médicales spécialisées. Pour relever ce défi, nous présentons IAMG-VL-5.5M, un ensemble de données médicales multimodal complet créé en convertissant des centaines d'ensembles de données médicales spécialisées en paires image-texte méticuleusement construites. Cet ensemble de données offre une couverture de tâches complète, des modalités diverses et des données image-texte de haute qualité. En s'appuyant sur cet ensemble de données multimodal, nous proposons IAMG-VL, un modèle de vision-langage médical général avec une stratégie d'entraînement en trois étapes progressives. Cette approche améliore significativement les capacités du modèle en intégrant des informations visuelles et textuelles, améliorant ainsi sa capacité à traiter des données multimodales et à soutenir un diagnostic précis et la prise de décision clinique. Les évaluations expérimentales montrent qu'IAMG-VL atteint des résultats de pointe dans une large gamme de tâches médicales multimodales, telles que la réponse à des questions visuelles et le diagnostic d'images médicales. Nos contributions comprennent le développement de l'ensemble de données IAMG-VL-5.5M, l'introduction du modèle IAMG-VL et l'établissement de nouveaux benchmarks dans plusieurs domaines médicaux. Le code et l'ensemble de données seront publiés sur https://github.com/uni-medical/GMAI-VL.
English
Despite significant advancements in general artificial intelligence, such as
GPT-4, their effectiveness in the medical domain (general medical AI, GMAI)
remains constrained due to the absence of specialized medical knowledge. To
address this challenge, we present GMAI-VL-5.5M, a comprehensive multimodal
medical dataset created by converting hundreds of specialized medical datasets
into meticulously constructed image-text pairs. This dataset features
comprehensive task coverage, diverse modalities, and high-quality image-text
data. Building upon this multimodal dataset, we propose GMAI-VL, a general
medical vision-language model with a progressively three-stage training
strategy. This approach significantly enhances the model's ability by
integrating visual and textual information, thereby improving its ability to
process multimodal data and support accurate diagnosis and clinical
decision-making. Experimental evaluations demonstrate that GMAI-VL achieves
state-of-the-art results across a wide range of multimodal medical tasks, such
as visual question answering and medical image diagnosis. Our contributions
include the development of the GMAI-VL-5.5M dataset, the introduction of the
GMAI-VL model, and the establishment of new benchmarks in multiple medical
domains. Code and dataset will be released at
https://github.com/uni-medical/GMAI-VL.Summary
AI-Generated Summary