MedTrinity-25M:医療分野におけるマルチグラニュラリティ注釈付き大規模マルチモーダルデータセット
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
August 6, 2024
著者: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI
要旨
本論文では、MedTrinity-25Mを紹介する。これは医学分野における包括的で大規模なマルチモーダルデータセットであり、10種類のモダリティにわたる2,500万枚以上の画像と、65以上の疾患に対するマルチグラニュラリティのアノテーションをカバーしている。これらの充実したアノテーションは、疾患/病変タイプ、モダリティ、領域固有の記述、領域間の関係といったグローバルなテキスト情報に加え、関心領域(ROI)に対する詳細なローカルアノテーション(バウンディングボックスやセグメンテーションマスクなど)を含む。既存のアプローチが画像-テキストペアの可用性に制限されていたのに対し、我々はペアリングされたテキスト記述を必要とせずにマルチグラニュラリティの視覚的およびテキスト的アノテーション(画像-ROI-記述のトリプレット形式)を生成する初の自動化パイプラインを開発した。具体的には、90以上の異なるソースからデータを収集し、前処理を行い、異常領域に関連するROIを特定するためにドメイン固有の専門家モデルを使用してグラウンディングを行った。その後、包括的なナレッジベースを構築し、マルチモーダル大規模言語モデルにプロンプトを与えて、特定されたROIをガイドとして検索拡張生成を行い、マルチグラニュラリティのテキスト記述を生成した。既存のデータセットと比較して、MedTrinity-25Mは最も充実したアノテーションを提供し、キャプショニングやレポート生成といったマルチモーダルタスク、および分類やセグメンテーションといった視覚中心のタスクを包括的にサポートする。MedTrinity-25Mで事前学習を行った我々のモデルは、VQA-RADおよびPathVQAにおいて、マルチモーダル大規模言語モデルや他の代表的なSoTAアプローチを上回る最先端の性能を達成した。このデータセットは、マルチモーダル医療AIモデルの大規模事前学習をサポートするためにも利用可能であり、医療分野における将来の基盤モデルの開発に貢献するものである。
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal
dataset for medicine, covering over 25 million images across 10 modalities,
with multigranular annotations for more than 65 diseases. These enriched
annotations encompass both global textual information, such as disease/lesion
type, modality, region-specific descriptions, and inter-regional relationships,
as well as detailed local annotations for regions of interest (ROIs), including
bounding boxes, segmentation masks. Unlike existing approach which is limited
by the availability of image-text pairs, we have developed the first automated
pipeline that scales up multimodal data by generating multigranular visual and
texual annotations (in the form of image-ROI-description triplets) without the
need for any paired text descriptions. Specifically, data from over 90
different sources have been collected, preprocessed, and grounded using
domain-specific expert models to identify ROIs related to abnormal regions. We
then build a comprehensive knowledge base and prompt multimodal large language
models to perform retrieval-augmented generation with the identified ROIs as
guidance, resulting in multigranular texual descriptions. Compared to existing
datasets, MedTrinity-25M provides the most enriched annotations, supporting a
comprehensive range of multimodal tasks such as captioning and report
generation, as well as vision-centric tasks like classification and
segmentation. Pretraining on MedTrinity-25M, our model achieves
state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal
large language models and other representative SoTA approaches. This dataset
can also be utilized to support large-scale pre-training of multimodal medical
AI models, contributing to the development of future foundation models in the
medical domain.Summary
AI-Generated Summary