MedTrinity-25M: Um conjunto de dados multimodal em larga escala com anotações multigranulares para a área da Medicina.
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
August 6, 2024
Autores: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI
Resumo
Este artigo apresenta o MedTrinity-25M, um conjunto de dados multimodal abrangente em larga escala para a área da medicina, cobrindo mais de 25 milhões de imagens em 10 modalidades, com anotações multigranulares para mais de 65 doenças. Essas anotações enriquecidas abrangem tanto informações textuais globais, como tipo de doença/lesão, modalidade, descrições específicas da região e relacionamentos inter-regionais, quanto anotações locais detalhadas para regiões de interesse (ROIs), incluindo caixas delimitadoras e máscaras de segmentação. Ao contrário das abordagens existentes que são limitadas pela disponibilidade de pares imagem-texto, desenvolvemos o primeiro pipeline automatizado que amplia dados multimodais gerando anotações visuais e textuais multigranulares (na forma de triplas imagem-ROI-descrição) sem a necessidade de descrições de texto em pares. Especificamente, dados de mais de 90 fontes diferentes foram coletados, pré-processados e fundamentados usando modelos especializados no domínio para identificar ROIs relacionadas a regiões anormais. Em seguida, construímos uma base de conhecimento abrangente e orientamos modelos de linguagem grandes multimodais para realizar geração com recuperação aumentada com as ROIs identificadas como orientação, resultando em descrições textuais multigranulares. Em comparação com conjuntos de dados existentes, o MedTrinity-25M fornece as anotações mais enriquecidas, suportando uma ampla gama de tarefas multimodais, como legendagem e geração de relatórios, bem como tarefas centradas na visão, como classificação e segmentação. Ao realizar pré-treinamento no MedTrinity-25M, nosso modelo alcança desempenho de ponta no VQA-RAD e PathVQA, superando tanto modelos grandes de linguagem multimodal quanto outras abordagens representativas de estado-da-arte. Este conjunto de dados também pode ser utilizado para apoiar o pré-treinamento em larga escala de modelos de IA médica multimodais, contribuindo para o desenvolvimento de futuros modelos fundamentais no domínio médico.
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal
dataset for medicine, covering over 25 million images across 10 modalities,
with multigranular annotations for more than 65 diseases. These enriched
annotations encompass both global textual information, such as disease/lesion
type, modality, region-specific descriptions, and inter-regional relationships,
as well as detailed local annotations for regions of interest (ROIs), including
bounding boxes, segmentation masks. Unlike existing approach which is limited
by the availability of image-text pairs, we have developed the first automated
pipeline that scales up multimodal data by generating multigranular visual and
texual annotations (in the form of image-ROI-description triplets) without the
need for any paired text descriptions. Specifically, data from over 90
different sources have been collected, preprocessed, and grounded using
domain-specific expert models to identify ROIs related to abnormal regions. We
then build a comprehensive knowledge base and prompt multimodal large language
models to perform retrieval-augmented generation with the identified ROIs as
guidance, resulting in multigranular texual descriptions. Compared to existing
datasets, MedTrinity-25M provides the most enriched annotations, supporting a
comprehensive range of multimodal tasks such as captioning and report
generation, as well as vision-centric tasks like classification and
segmentation. Pretraining on MedTrinity-25M, our model achieves
state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal
large language models and other representative SoTA approaches. This dataset
can also be utilized to support large-scale pre-training of multimodal medical
AI models, contributing to the development of future foundation models in the
medical domain.Summary
AI-Generated Summary