GMAI-VL e GMAI-VL-5.5M: Um Modelo Grande de Visão e Linguagem e Um Conjunto de Dados Multimodal Abrangente Rumo à Inteligência Artificial Médica Geral
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI
November 21, 2024
Autores: Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
cs.AI
Resumo
Apesar dos avanços significativos em inteligência artificial geral, como o GPT-4, sua eficácia no domínio médico (IA médica geral, GMAI) permanece limitada devido à ausência de conhecimento médico especializado. Para enfrentar esse desafio, apresentamos o GMAI-VL-5.5M, um conjunto de dados médicos multimodais abrangente criado convertendo centenas de conjuntos de dados médicos especializados em pares de imagem-texto meticulosamente construídos. Este conjunto de dados apresenta cobertura abrangente de tarefas, modalidades diversas e dados de imagem-texto de alta qualidade. Com base neste conjunto de dados multimodal, propomos o GMAI-VL, um modelo de visão e linguagem médica geral com uma estratégia de treinamento progressivo em três estágios. Esta abordagem melhora significativamente a capacidade do modelo integrando informações visuais e textuais, melhorando assim sua capacidade de processar dados multimodais e apoiar diagnósticos precisos e tomadas de decisão clínicas. Avaliações experimentais demonstram que o GMAI-VL alcança resultados de ponta em uma ampla gama de tarefas médicas multimodais, como resposta a perguntas visuais e diagnóstico de imagens médicas. Nossas contribuições incluem o desenvolvimento do conjunto de dados GMAI-VL-5.5M, a introdução do modelo GMAI-VL e o estabelecimento de novos benchmarks em múltiplos domínios médicos. O código e o conjunto de dados serão disponibilizados em https://github.com/uni-medical/GMAI-VL.
English
Despite significant advancements in general artificial intelligence, such as
GPT-4, their effectiveness in the medical domain (general medical AI, GMAI)
remains constrained due to the absence of specialized medical knowledge. To
address this challenge, we present GMAI-VL-5.5M, a comprehensive multimodal
medical dataset created by converting hundreds of specialized medical datasets
into meticulously constructed image-text pairs. This dataset features
comprehensive task coverage, diverse modalities, and high-quality image-text
data. Building upon this multimodal dataset, we propose GMAI-VL, a general
medical vision-language model with a progressively three-stage training
strategy. This approach significantly enhances the model's ability by
integrating visual and textual information, thereby improving its ability to
process multimodal data and support accurate diagnosis and clinical
decision-making. Experimental evaluations demonstrate that GMAI-VL achieves
state-of-the-art results across a wide range of multimodal medical tasks, such
as visual question answering and medical image diagnosis. Our contributions
include the development of the GMAI-VL-5.5M dataset, the introduction of the
GMAI-VL model, and the establishment of new benchmarks in multiple medical
domains. Code and dataset will be released at
https://github.com/uni-medical/GMAI-VL.Summary
AI-Generated Summary