MedTrinity-25M: Un dataset multimodale su larga scala con annotazioni multigranulari per la medicina
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
August 6, 2024
Autori: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI
Abstract
Questo articolo presenta MedTrinity-25M, un dataset multimodale su larga scala e completo per la medicina, che copre oltre 25 milioni di immagini in 10 modalità, con annotazioni multigranulari per più di 65 malattie. Queste annotazioni arricchite includono sia informazioni testuali globali, come il tipo di malattia/lesione, la modalità, descrizioni specifiche per regione e relazioni interregionali, sia annotazioni locali dettagliate per le regioni di interesse (ROI), tra cui bounding box e maschere di segmentazione. A differenza degli approcci esistenti, limitati dalla disponibilità di coppie immagine-testo, abbiamo sviluppato la prima pipeline automatizzata che scala i dati multimodali generando annotazioni visive e testuali multigranulari (sotto forma di triplette immagine-ROI-descrizione) senza la necessità di descrizioni testuali accoppiate. Nello specifico, i dati provenienti da oltre 90 fonti diverse sono stati raccolti, preprocessati e ancorati utilizzando modelli esperti specifici del dominio per identificare le ROI relative alle regioni anomale. Successivamente, abbiamo costruito una base di conoscenza completa e abbiamo sollecitato modelli linguistici multimodali di grandi dimensioni per eseguire una generazione aumentata dal recupero con le ROI identificate come guida, ottenendo descrizioni testuali multigranulari. Rispetto ai dataset esistenti, MedTrinity-25M fornisce le annotazioni più arricchite, supportando un'ampia gamma di attività multimodali come la generazione di didascalie e report, nonché attività centrate sulla visione come la classificazione e la segmentazione. Addestrando il nostro modello su MedTrinity-25M, otteniamo prestazioni all'avanguardia su VQA-RAD e PathVQA, superando sia i modelli linguistici multimodali di grandi dimensioni che altri approcci rappresentativi SoTA. Questo dataset può anche essere utilizzato per supportare il pre-addestramento su larga scala di modelli di intelligenza artificiale medica multimodale, contribuendo allo sviluppo di futuri modelli di base nel dominio medico.
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal
dataset for medicine, covering over 25 million images across 10 modalities,
with multigranular annotations for more than 65 diseases. These enriched
annotations encompass both global textual information, such as disease/lesion
type, modality, region-specific descriptions, and inter-regional relationships,
as well as detailed local annotations for regions of interest (ROIs), including
bounding boxes, segmentation masks. Unlike existing approach which is limited
by the availability of image-text pairs, we have developed the first automated
pipeline that scales up multimodal data by generating multigranular visual and
texual annotations (in the form of image-ROI-description triplets) without the
need for any paired text descriptions. Specifically, data from over 90
different sources have been collected, preprocessed, and grounded using
domain-specific expert models to identify ROIs related to abnormal regions. We
then build a comprehensive knowledge base and prompt multimodal large language
models to perform retrieval-augmented generation with the identified ROIs as
guidance, resulting in multigranular texual descriptions. Compared to existing
datasets, MedTrinity-25M provides the most enriched annotations, supporting a
comprehensive range of multimodal tasks such as captioning and report
generation, as well as vision-centric tasks like classification and
segmentation. Pretraining on MedTrinity-25M, our model achieves
state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal
large language models and other representative SoTA approaches. This dataset
can also be utilized to support large-scale pre-training of multimodal medical
AI models, contributing to the development of future foundation models in the
medical domain.