MedTrinity-25M: Un conjunto de datos multimodal a gran escala con anotaciones multigranulares para medicina

Resumen

Este documento presenta MedTrinity-25M, un conjunto de datos multimodal completo a gran escala para medicina, que abarca más de 25 millones de imágenes en 10 modalidades, con anotaciones multigranulares para más de 65 enfermedades. Estas anotaciones enriquecidas incluyen información textual global, como tipo de enfermedad/lesión, modalidad, descripciones específicas de la región y relaciones interregionales, así como anotaciones locales detalladas para regiones de interés (ROIs), que incluyen cuadros delimitadores y máscaras de segmentación. A diferencia de enfoques existentes limitados por la disponibilidad de pares imagen-texto, hemos desarrollado el primer pipeline automatizado que amplía datos multimodales mediante la generación de anotaciones visuales y textuales multigranulares (en forma de tripletes imagen-ROI-descripción) sin necesidad de descripciones de texto emparejadas. Específicamente, se han recopilado, preprocesado y fundamentado datos de más de 90 fuentes diferentes utilizando modelos expertos específicos del dominio para identificar ROIs relacionadas con regiones anormales. Luego construimos una base de conocimientos integral y guiamos a modelos de lenguaje grandes multimodales para realizar generación aumentada por recuperación con las ROIs identificadas como guía, lo que resulta en descripciones textuales multigranulares. En comparación con conjuntos de datos existentes, MedTrinity-25M proporciona las anotaciones más enriquecidas, respaldando una amplia gama de tareas multimodales como subtitulado y generación de informes, así como tareas centradas en la visión como clasificación y segmentación. Al preentrenar en MedTrinity-25M, nuestro modelo logra un rendimiento de vanguardia en VQA-RAD y PathVQA, superando tanto a modelos grandes de lenguaje multimodal como a otros enfoques representativos de vanguardia. Este conjunto de datos también puede utilizarse para respaldar el preentrenamiento a gran escala de modelos de IA médica multimodales, contribuyendo al desarrollo de futuros modelos fundamentales en el ámbito médico.

English

This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal dataset for medicine, covering over 25 million images across 10 modalities, with multigranular annotations for more than 65 diseases. These enriched annotations encompass both global textual information, such as disease/lesion type, modality, region-specific descriptions, and inter-regional relationships, as well as detailed local annotations for regions of interest (ROIs), including bounding boxes, segmentation masks. Unlike existing approach which is limited by the availability of image-text pairs, we have developed the first automated pipeline that scales up multimodal data by generating multigranular visual and texual annotations (in the form of image-ROI-description triplets) without the need for any paired text descriptions. Specifically, data from over 90 different sources have been collected, preprocessed, and grounded using domain-specific expert models to identify ROIs related to abnormal regions. We then build a comprehensive knowledge base and prompt multimodal large language models to perform retrieval-augmented generation with the identified ROIs as guidance, resulting in multigranular texual descriptions. Compared to existing datasets, MedTrinity-25M provides the most enriched annotations, supporting a comprehensive range of multimodal tasks such as captioning and report generation, as well as vision-centric tasks like classification and segmentation. Pretraining on MedTrinity-25M, our model achieves state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal large language models and other representative SoTA approaches. This dataset can also be utilized to support large-scale pre-training of multimodal medical AI models, contributing to the development of future foundation models in the medical domain.

MedTrinity-25M: Un conjunto de datos multimodal a gran escala con anotaciones multigranulares para medicina

MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine

Resumen

Summary

Support