MedTrinity-25M: Un conjunto de datos multimodal a gran escala con anotaciones multigranulares para medicina
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
August 6, 2024
Autores: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI
Resumen
Este documento presenta MedTrinity-25M, un conjunto de datos multimodal completo a gran escala para medicina, que abarca más de 25 millones de imágenes en 10 modalidades, con anotaciones multigranulares para más de 65 enfermedades. Estas anotaciones enriquecidas incluyen información textual global, como tipo de enfermedad/lesión, modalidad, descripciones específicas de la región y relaciones interregionales, así como anotaciones locales detalladas para regiones de interés (ROIs), que incluyen cuadros delimitadores y máscaras de segmentación. A diferencia de enfoques existentes limitados por la disponibilidad de pares imagen-texto, hemos desarrollado el primer pipeline automatizado que amplía datos multimodales mediante la generación de anotaciones visuales y textuales multigranulares (en forma de tripletes imagen-ROI-descripción) sin necesidad de descripciones de texto emparejadas. Específicamente, se han recopilado, preprocesado y fundamentado datos de más de 90 fuentes diferentes utilizando modelos expertos específicos del dominio para identificar ROIs relacionadas con regiones anormales. Luego construimos una base de conocimientos integral y guiamos a modelos de lenguaje grandes multimodales para realizar generación aumentada por recuperación con las ROIs identificadas como guía, lo que resulta en descripciones textuales multigranulares. En comparación con conjuntos de datos existentes, MedTrinity-25M proporciona las anotaciones más enriquecidas, respaldando una amplia gama de tareas multimodales como subtitulado y generación de informes, así como tareas centradas en la visión como clasificación y segmentación. Al preentrenar en MedTrinity-25M, nuestro modelo logra un rendimiento de vanguardia en VQA-RAD y PathVQA, superando tanto a modelos grandes de lenguaje multimodal como a otros enfoques representativos de vanguardia. Este conjunto de datos también puede utilizarse para respaldar el preentrenamiento a gran escala de modelos de IA médica multimodales, contribuyendo al desarrollo de futuros modelos fundamentales en el ámbito médico.
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal
dataset for medicine, covering over 25 million images across 10 modalities,
with multigranular annotations for more than 65 diseases. These enriched
annotations encompass both global textual information, such as disease/lesion
type, modality, region-specific descriptions, and inter-regional relationships,
as well as detailed local annotations for regions of interest (ROIs), including
bounding boxes, segmentation masks. Unlike existing approach which is limited
by the availability of image-text pairs, we have developed the first automated
pipeline that scales up multimodal data by generating multigranular visual and
texual annotations (in the form of image-ROI-description triplets) without the
need for any paired text descriptions. Specifically, data from over 90
different sources have been collected, preprocessed, and grounded using
domain-specific expert models to identify ROIs related to abnormal regions. We
then build a comprehensive knowledge base and prompt multimodal large language
models to perform retrieval-augmented generation with the identified ROIs as
guidance, resulting in multigranular texual descriptions. Compared to existing
datasets, MedTrinity-25M provides the most enriched annotations, supporting a
comprehensive range of multimodal tasks such as captioning and report
generation, as well as vision-centric tasks like classification and
segmentation. Pretraining on MedTrinity-25M, our model achieves
state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal
large language models and other representative SoTA approaches. This dataset
can also be utilized to support large-scale pre-training of multimodal medical
AI models, contributing to the development of future foundation models in the
medical domain.Summary
AI-Generated Summary