ChatPaper.aiChatPaper

MedTrinity-25M: Een grootschalige multimodale dataset met multigranulaire annotaties voor geneeskunde

MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine

August 6, 2024
Auteurs: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI

Samenvatting

Dit artikel introduceert MedTrinity-25M, een uitgebreide, grootschalige multimodale dataset voor de geneeskunde, die meer dan 25 miljoen afbeeldingen omvat over 10 modaliteiten, met multigranulaire annotaties voor meer dan 65 ziekten. Deze verrijkte annotaties omvatten zowel globale tekstuele informatie, zoals ziekte/letseltype, modaliteit, regiospecifieke beschrijvingen en interregionale relaties, als gedetailleerde lokale annotaties voor regio's van belang (ROI's), inclusief begrenzingsvakken en segmentatiemaskers. In tegenstelling tot bestaande benaderingen die beperkt worden door de beschikbaarheid van beeld-tekstparen, hebben wij de eerste geautomatiseerde pijplijn ontwikkeld die multimodale data opschaalt door multigranulaire visuele en tekstuele annotaties te genereren (in de vorm van beeld-ROI-beschrijving triplets) zonder de noodzaak van gepaarde tekstbeschrijvingen. Specifiek zijn data van meer dan 90 verschillende bronnen verzameld, voorbewerkt en verankerd met domeinspecifieke expertmodellen om ROI's gerelateerd aan abnormale regio's te identificeren. Vervolgens bouwen we een uitgebreide kennisbank en stimuleren we multimodale grote taalmodellen om retrieval-augmented generatie uit te voeren met de geïdentificeerde ROI's als leidraad, wat resulteert in multigranulaire tekstuele beschrijvingen. Vergeleken met bestaande datasets biedt MedTrinity-25M de meest verrijkte annotaties, die een breed scala aan multimodale taken ondersteunen, zoals bijschriften en rapportgeneratie, evenals visiegerichte taken zoals classificatie en segmentatie. Door vooraf te trainen op MedTrinity-25M bereikt ons model state-of-the-art prestaties op VQA-RAD en PathVQA, waarbij zowel multimodale grote taalmodellen als andere representatieve SoTA-benaderingen worden overtroffen. Deze dataset kan ook worden gebruikt om grootschalige voorafgaande training van multimodale medische AI-modellen te ondersteunen, wat bijdraagt aan de ontwikkeling van toekomstige foundationmodellen in het medische domein.
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal dataset for medicine, covering over 25 million images across 10 modalities, with multigranular annotations for more than 65 diseases. These enriched annotations encompass both global textual information, such as disease/lesion type, modality, region-specific descriptions, and inter-regional relationships, as well as detailed local annotations for regions of interest (ROIs), including bounding boxes, segmentation masks. Unlike existing approach which is limited by the availability of image-text pairs, we have developed the first automated pipeline that scales up multimodal data by generating multigranular visual and texual annotations (in the form of image-ROI-description triplets) without the need for any paired text descriptions. Specifically, data from over 90 different sources have been collected, preprocessed, and grounded using domain-specific expert models to identify ROIs related to abnormal regions. We then build a comprehensive knowledge base and prompt multimodal large language models to perform retrieval-augmented generation with the identified ROIs as guidance, resulting in multigranular texual descriptions. Compared to existing datasets, MedTrinity-25M provides the most enriched annotations, supporting a comprehensive range of multimodal tasks such as captioning and report generation, as well as vision-centric tasks like classification and segmentation. Pretraining on MedTrinity-25M, our model achieves state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal large language models and other representative SoTA approaches. This dataset can also be utilized to support large-scale pre-training of multimodal medical AI models, contributing to the development of future foundation models in the medical domain.
PDF312February 8, 2026