ChatPaper.aiChatPaper

GMAI-VL y GMAI-VL-5.5M: Un gran modelo de visión y lenguaje y un conjunto de datos multimodal completo hacia la IA médica general

GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

November 21, 2024
Autores: Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
cs.AI

Resumen

A pesar de los significativos avances en inteligencia artificial general, como GPT-4, su efectividad en el ámbito médico (inteligencia artificial médica general, GMAI) sigue siendo limitada debido a la ausencia de conocimientos médicos especializados. Para abordar este desafío, presentamos GMAI-VL-5.5M, un completo conjunto de datos médicos multimodal creado mediante la conversión de cientos de conjuntos de datos médicos especializados en pares de imágenes y texto meticulosamente construidos. Este conjunto de datos ofrece una cobertura de tareas integral, diversas modalidades y datos de imagen-texto de alta calidad. Basándonos en este conjunto de datos multimodal, proponemos GMAI-VL, un modelo de visión y lenguaje médico general con una estrategia de entrenamiento progresiva de tres etapas. Este enfoque mejora significativamente la capacidad del modelo al integrar información visual y textual, mejorando así su capacidad para procesar datos multimodales y apoyar el diagnóstico preciso y la toma de decisiones clínicas. Las evaluaciones experimentales demuestran que GMAI-VL logra resultados de vanguardia en una amplia gama de tareas médicas multimodales, como responder preguntas visuales y diagnóstico de imágenes médicas. Nuestras contribuciones incluyen el desarrollo del conjunto de datos GMAI-VL-5.5M, la introducción del modelo GMAI-VL y el establecimiento de nuevos puntos de referencia en múltiples dominios médicos. El código y el conjunto de datos se publicarán en https://github.com/uni-medical/GMAI-VL.
English
Despite significant advancements in general artificial intelligence, such as GPT-4, their effectiveness in the medical domain (general medical AI, GMAI) remains constrained due to the absence of specialized medical knowledge. To address this challenge, we present GMAI-VL-5.5M, a comprehensive multimodal medical dataset created by converting hundreds of specialized medical datasets into meticulously constructed image-text pairs. This dataset features comprehensive task coverage, diverse modalities, and high-quality image-text data. Building upon this multimodal dataset, we propose GMAI-VL, a general medical vision-language model with a progressively three-stage training strategy. This approach significantly enhances the model's ability by integrating visual and textual information, thereby improving its ability to process multimodal data and support accurate diagnosis and clinical decision-making. Experimental evaluations demonstrate that GMAI-VL achieves state-of-the-art results across a wide range of multimodal medical tasks, such as visual question answering and medical image diagnosis. Our contributions include the development of the GMAI-VL-5.5M dataset, the introduction of the GMAI-VL model, and the establishment of new benchmarks in multiple medical domains. Code and dataset will be released at https://github.com/uni-medical/GMAI-VL.

Summary

AI-Generated Summary

PDF392November 26, 2024