MedTrinity-25M: Um conjunto de dados multimodal em larga escala com anotações multigranulares para a área da Medicina.

Resumo

Este artigo apresenta o MedTrinity-25M, um conjunto de dados multimodal abrangente em larga escala para a área da medicina, cobrindo mais de 25 milhões de imagens em 10 modalidades, com anotações multigranulares para mais de 65 doenças. Essas anotações enriquecidas abrangem tanto informações textuais globais, como tipo de doença/lesão, modalidade, descrições específicas da região e relacionamentos inter-regionais, quanto anotações locais detalhadas para regiões de interesse (ROIs), incluindo caixas delimitadoras e máscaras de segmentação. Ao contrário das abordagens existentes que são limitadas pela disponibilidade de pares imagem-texto, desenvolvemos o primeiro pipeline automatizado que amplia dados multimodais gerando anotações visuais e textuais multigranulares (na forma de triplas imagem-ROI-descrição) sem a necessidade de descrições de texto em pares. Especificamente, dados de mais de 90 fontes diferentes foram coletados, pré-processados e fundamentados usando modelos especializados no domínio para identificar ROIs relacionadas a regiões anormais. Em seguida, construímos uma base de conhecimento abrangente e orientamos modelos de linguagem grandes multimodais para realizar geração com recuperação aumentada com as ROIs identificadas como orientação, resultando em descrições textuais multigranulares. Em comparação com conjuntos de dados existentes, o MedTrinity-25M fornece as anotações mais enriquecidas, suportando uma ampla gama de tarefas multimodais, como legendagem e geração de relatórios, bem como tarefas centradas na visão, como classificação e segmentação. Ao realizar pré-treinamento no MedTrinity-25M, nosso modelo alcança desempenho de ponta no VQA-RAD e PathVQA, superando tanto modelos grandes de linguagem multimodal quanto outras abordagens representativas de estado-da-arte. Este conjunto de dados também pode ser utilizado para apoiar o pré-treinamento em larga escala de modelos de IA médica multimodais, contribuindo para o desenvolvimento de futuros modelos fundamentais no domínio médico.

English

This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal dataset for medicine, covering over 25 million images across 10 modalities, with multigranular annotations for more than 65 diseases. These enriched annotations encompass both global textual information, such as disease/lesion type, modality, region-specific descriptions, and inter-regional relationships, as well as detailed local annotations for regions of interest (ROIs), including bounding boxes, segmentation masks. Unlike existing approach which is limited by the availability of image-text pairs, we have developed the first automated pipeline that scales up multimodal data by generating multigranular visual and texual annotations (in the form of image-ROI-description triplets) without the need for any paired text descriptions. Specifically, data from over 90 different sources have been collected, preprocessed, and grounded using domain-specific expert models to identify ROIs related to abnormal regions. We then build a comprehensive knowledge base and prompt multimodal large language models to perform retrieval-augmented generation with the identified ROIs as guidance, resulting in multigranular texual descriptions. Compared to existing datasets, MedTrinity-25M provides the most enriched annotations, supporting a comprehensive range of multimodal tasks such as captioning and report generation, as well as vision-centric tasks like classification and segmentation. Pretraining on MedTrinity-25M, our model achieves state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal large language models and other representative SoTA approaches. This dataset can also be utilized to support large-scale pre-training of multimodal medical AI models, contributing to the development of future foundation models in the medical domain.

MedTrinity-25M: Um conjunto de dados multimodal em larga escala com anotações multigranulares para a área da Medicina.

MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine

Resumo

Summary

Support

Support