GMAI-VL&GMAI-VL-5.5M:大規模ビジョン言語モデルと一般医療AIに向けた包括的なマルチモーダルデータセット
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI
November 21, 2024
著者: Tianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
cs.AI
要旨
一般人工知能の重要な進歩があるにもかかわらず、例えばGPT-4のようなものでも、医療領域(一般医療AI、GMAI)における効果は、専門的な医学知識の不在により制約されています。この課題に対処するために、私たちはGMAI-VL-5.5Mを提案します。これは、数百の専門医学データセットを画像とテキストのペアに精巧に変換して作成された包括的なマルチモーダル医学データセットです。このデータセットは包括的なタスクカバレッジ、多様なモダリティ、高品質な画像テキストデータを特徴としています。このマルチモーダルデータセットを基盤として、私たちは進行的な3段階のトレーニング戦略を持つ一般医療ビジョン言語モデルであるGMAI-VLを提案します。このアプローチは、視覚的およびテキスト情報を統合することでモデルの能力を大幅に向上させ、マルチモーダルデータを処理し、正確な診断と臨床判断をサポートする能力を向上させます。実験評価により、GMAI-VLが視覚的質問応答や医用画像診断など、幅広いマルチモーダル医療タスクで最先端の結果を達成することが示されました。私たちの貢献には、GMAI-VL-5.5Mデータセットの開発、GMAI-VLモデルの導入、および複数の医療領域での新たなベンチマークの確立が含まれます。コードとデータセットはhttps://github.com/uni-medical/GMAI-VL で公開されます。
English
Despite significant advancements in general artificial intelligence, such as
GPT-4, their effectiveness in the medical domain (general medical AI, GMAI)
remains constrained due to the absence of specialized medical knowledge. To
address this challenge, we present GMAI-VL-5.5M, a comprehensive multimodal
medical dataset created by converting hundreds of specialized medical datasets
into meticulously constructed image-text pairs. This dataset features
comprehensive task coverage, diverse modalities, and high-quality image-text
data. Building upon this multimodal dataset, we propose GMAI-VL, a general
medical vision-language model with a progressively three-stage training
strategy. This approach significantly enhances the model's ability by
integrating visual and textual information, thereby improving its ability to
process multimodal data and support accurate diagnosis and clinical
decision-making. Experimental evaluations demonstrate that GMAI-VL achieves
state-of-the-art results across a wide range of multimodal medical tasks, such
as visual question answering and medical image diagnosis. Our contributions
include the development of the GMAI-VL-5.5M dataset, the introduction of the
GMAI-VL model, and the establishment of new benchmarks in multiple medical
domains. Code and dataset will be released at
https://github.com/uni-medical/GMAI-VL.Summary
AI-Generated Summary