MedTrinity-25M: Крупномасштабный мультимодальный набор данных с мультигранулярной разметкой для медицины
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
August 6, 2024
Авторы: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI
Аннотация
В данной статье представлен MedTrinity-25M - обширный многомодальный набор данных по медицине, охватывающий более 25 миллионов изображений по 10 модальностям, с мультигранулярной аннотацией для более чем 65 заболеваний. Эти обогащенные аннотации включают как глобальную текстовую информацию, такую как тип заболевания/опухоли, модальность, регион-специфические описания и межрегиональные отношения, так и подробные локальные аннотации для областей интереса (ROI), включая ограничивающие рамки, маски сегментации. В отличие от существующего подхода, ограниченного наличием пар изображение-текст, мы разработали первый автоматизированный конвейер, который масштабирует многомодальные данные путем создания мультигранулярных визуальных и текстовых аннотаций (в виде троек изображение-ROI-описание) без необходимости парных текстовых описаний. Конкретно, данные из более чем 90 различных источников были собраны, предобработаны и основаны с использованием моделей экспертов в области домена для выявления ROI, связанных с аномальными областями. Затем мы создаем обширную базу знаний и стимулируем многомодальные крупномасштабные языковые модели для выполнения генерации с увеличенным поиском с использованием выявленных ROI в качестве руководства, что приводит к мультигранулярным текстовым описаниям. По сравнению с существующими наборами данных, MedTrinity-25M обеспечивает наиболее обогащенные аннотации, поддерживая широкий спектр многомодальных задач, таких как подписывание и генерация отчетов, а также задачи, связанные с зрением, такие как классификация и сегментация. Предварительное обучение на MedTrinity-25M позволяет нашей модели достичь передовой производительности на VQA-RAD и PathVQA, превзойдя как многомодальные крупномасштабные языковые модели, так и другие представительные подходы к передовой технологии. Этот набор данных также может быть использован для поддержки крупномасштабного предварительного обучения многомодальных медицинских моделей и способствовать развитию будущих базовых моделей в медицинской области.
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal
dataset for medicine, covering over 25 million images across 10 modalities,
with multigranular annotations for more than 65 diseases. These enriched
annotations encompass both global textual information, such as disease/lesion
type, modality, region-specific descriptions, and inter-regional relationships,
as well as detailed local annotations for regions of interest (ROIs), including
bounding boxes, segmentation masks. Unlike existing approach which is limited
by the availability of image-text pairs, we have developed the first automated
pipeline that scales up multimodal data by generating multigranular visual and
texual annotations (in the form of image-ROI-description triplets) without the
need for any paired text descriptions. Specifically, data from over 90
different sources have been collected, preprocessed, and grounded using
domain-specific expert models to identify ROIs related to abnormal regions. We
then build a comprehensive knowledge base and prompt multimodal large language
models to perform retrieval-augmented generation with the identified ROIs as
guidance, resulting in multigranular texual descriptions. Compared to existing
datasets, MedTrinity-25M provides the most enriched annotations, supporting a
comprehensive range of multimodal tasks such as captioning and report
generation, as well as vision-centric tasks like classification and
segmentation. Pretraining on MedTrinity-25M, our model achieves
state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal
large language models and other representative SoTA approaches. This dataset
can also be utilized to support large-scale pre-training of multimodal medical
AI models, contributing to the development of future foundation models in the
medical domain.Summary
AI-Generated Summary