MedTrinity-25M: Een grootschalige multimodale dataset met multigranulaire annotaties voor geneeskunde
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
August 6, 2024
Auteurs: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI
Samenvatting
Dit artikel introduceert MedTrinity-25M, een uitgebreide, grootschalige multimodale dataset voor de geneeskunde, die meer dan 25 miljoen afbeeldingen omvat over 10 modaliteiten, met multigranulaire annotaties voor meer dan 65 ziekten. Deze verrijkte annotaties omvatten zowel globale tekstuele informatie, zoals ziekte/letseltype, modaliteit, regiospecifieke beschrijvingen en interregionale relaties, als gedetailleerde lokale annotaties voor regio's van belang (ROI's), inclusief begrenzingsvakken en segmentatiemaskers. In tegenstelling tot bestaande benaderingen die beperkt worden door de beschikbaarheid van beeld-tekstparen, hebben wij de eerste geautomatiseerde pijplijn ontwikkeld die multimodale data opschaalt door multigranulaire visuele en tekstuele annotaties te genereren (in de vorm van beeld-ROI-beschrijving triplets) zonder de noodzaak van gepaarde tekstbeschrijvingen. Specifiek zijn data van meer dan 90 verschillende bronnen verzameld, voorbewerkt en verankerd met domeinspecifieke expertmodellen om ROI's gerelateerd aan abnormale regio's te identificeren. Vervolgens bouwen we een uitgebreide kennisbank en stimuleren we multimodale grote taalmodellen om retrieval-augmented generatie uit te voeren met de geïdentificeerde ROI's als leidraad, wat resulteert in multigranulaire tekstuele beschrijvingen. Vergeleken met bestaande datasets biedt MedTrinity-25M de meest verrijkte annotaties, die een breed scala aan multimodale taken ondersteunen, zoals bijschriften en rapportgeneratie, evenals visiegerichte taken zoals classificatie en segmentatie. Door vooraf te trainen op MedTrinity-25M bereikt ons model state-of-the-art prestaties op VQA-RAD en PathVQA, waarbij zowel multimodale grote taalmodellen als andere representatieve SoTA-benaderingen worden overtroffen. Deze dataset kan ook worden gebruikt om grootschalige voorafgaande training van multimodale medische AI-modellen te ondersteunen, wat bijdraagt aan de ontwikkeling van toekomstige foundationmodellen in het medische domein.
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal
dataset for medicine, covering over 25 million images across 10 modalities,
with multigranular annotations for more than 65 diseases. These enriched
annotations encompass both global textual information, such as disease/lesion
type, modality, region-specific descriptions, and inter-regional relationships,
as well as detailed local annotations for regions of interest (ROIs), including
bounding boxes, segmentation masks. Unlike existing approach which is limited
by the availability of image-text pairs, we have developed the first automated
pipeline that scales up multimodal data by generating multigranular visual and
texual annotations (in the form of image-ROI-description triplets) without the
need for any paired text descriptions. Specifically, data from over 90
different sources have been collected, preprocessed, and grounded using
domain-specific expert models to identify ROIs related to abnormal regions. We
then build a comprehensive knowledge base and prompt multimodal large language
models to perform retrieval-augmented generation with the identified ROIs as
guidance, resulting in multigranular texual descriptions. Compared to existing
datasets, MedTrinity-25M provides the most enriched annotations, supporting a
comprehensive range of multimodal tasks such as captioning and report
generation, as well as vision-centric tasks like classification and
segmentation. Pretraining on MedTrinity-25M, our model achieves
state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal
large language models and other representative SoTA approaches. This dataset
can also be utilized to support large-scale pre-training of multimodal medical
AI models, contributing to the development of future foundation models in the
medical domain.