ChatPaper.aiChatPaper

GMAI-VL & GMAI-VL-5.5M: Ein großes Vision-Sprach-Modell und ein umfassender multimodaler Datensatz für die allgemeine medizinische KI

GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

November 21, 2024
Autoren: Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
cs.AI

Zusammenfassung

Trotz bedeutender Fortschritte in der allgemeinen künstlichen Intelligenz, wie beispielsweise GPT-4, bleibt deren Wirksamkeit im medizinischen Bereich (allgemeine medizinische KI, GMAI) aufgrund des Mangels an spezialisiertem medizinischem Wissen eingeschränkt. Um dieser Herausforderung zu begegnen, präsentieren wir GMAI-VL-5.5M, einen umfassenden multimodalen medizinischen Datensatz, der durch die Umwandlung von Hunderten spezialisierten medizinischen Datensätzen in sorgfältig konstruierte Bild-Text-Paare erstellt wurde. Dieser Datensatz bietet eine umfassende Abdeckung von Aufgaben, verschiedene Modalitäten und hochwertige Bild-Text-Daten. Aufbauend auf diesem multimodalen Datensatz schlagen wir GMAI-VL vor, ein allgemeines medizinisches Vision-Sprachmodell mit einer progressiven dreistufigen Schulungsstrategie. Dieser Ansatz verbessert signifikant die Fähigkeit des Modells, indem visuelle und textuelle Informationen integriert werden, wodurch seine Fähigkeit zur Verarbeitung von multimodalen Daten und zur Unterstützung genauer Diagnosen und klinischer Entscheidungsfindung verbessert wird. Experimentelle Bewertungen zeigen, dass GMAI-VL Spitzenleistung in einer Vielzahl von multimodalen medizinischen Aufgaben erzielt, wie beispielsweise visuelle Fragestellungen und medizinische Bildgebung. Unsere Beiträge umfassen die Entwicklung des GMAI-VL-5.5M-Datensatzes, die Einführung des GMAI-VL-Modells und die Schaffung neuer Benchmarks in mehreren medizinischen Bereichen. Der Code und der Datensatz werden unter https://github.com/uni-medical/GMAI-VL veröffentlicht.
English
Despite significant advancements in general artificial intelligence, such as GPT-4, their effectiveness in the medical domain (general medical AI, GMAI) remains constrained due to the absence of specialized medical knowledge. To address this challenge, we present GMAI-VL-5.5M, a comprehensive multimodal medical dataset created by converting hundreds of specialized medical datasets into meticulously constructed image-text pairs. This dataset features comprehensive task coverage, diverse modalities, and high-quality image-text data. Building upon this multimodal dataset, we propose GMAI-VL, a general medical vision-language model with a progressively three-stage training strategy. This approach significantly enhances the model's ability by integrating visual and textual information, thereby improving its ability to process multimodal data and support accurate diagnosis and clinical decision-making. Experimental evaluations demonstrate that GMAI-VL achieves state-of-the-art results across a wide range of multimodal medical tasks, such as visual question answering and medical image diagnosis. Our contributions include the development of the GMAI-VL-5.5M dataset, the introduction of the GMAI-VL model, and the establishment of new benchmarks in multiple medical domains. Code and dataset will be released at https://github.com/uni-medical/GMAI-VL.

Summary

AI-Generated Summary

PDF392November 26, 2024