MedTrinity-25M: Ein umfangreiches multimodales Datenset mit multigranularen Annotationen für die Medizin
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
August 6, 2024
Autoren: Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
cs.AI
Zusammenfassung
Dieses Papier stellt MedTrinity-25M vor, ein umfassendes, groß angelegtes multimodales Datenset für die Medizin, das über 25 Millionen Bilder in 10 Modalitäten umfasst, mit multigranularen Annotationen für mehr als 65 Krankheiten. Diese angereicherten Annotationen umfassen sowohl globale textuelle Informationen wie Krankheits-/Läsionstyp, Modalität, regionspezifische Beschreibungen und interregionale Beziehungen als auch detaillierte lokale Annotationen für Regionen von Interesse (ROIs), einschließlich Bounding-Boxen und Segmentierungsmasken. Im Gegensatz zu bestehenden Ansätzen, die durch die Verfügbarkeit von Bild-Text-Paaren eingeschränkt sind, haben wir die erste automatisierte Pipeline entwickelt, die multimodale Daten durch die Generierung multigranularer visueller und textueller Annotationen (in Form von Bild-ROI-Beschreibungs-Triplets) ohne die Notwendigkeit von gepaarten Textbeschreibungen skalieren kann. Speziell wurden Daten aus über 90 verschiedenen Quellen gesammelt, vorverarbeitet und mithilfe domänenspezifischer Expertenmodelle verankert, um ROIs in Bezug auf abnormale Regionen zu identifizieren. Anschließend bauen wir eine umfassende Wissensbasis auf und fordern multimodale große Sprachmodelle auf, eine abrufgestützte Generierung mit den identifizierten ROIs als Leitfaden durchzuführen, was zu multigranularen textuellen Beschreibungen führt. Im Vergleich zu bestehenden Datensets bietet MedTrinity-25M die umfangreichsten Annotationen, die eine breite Palette von multimodalen Aufgaben wie Bildunterschriften und Berichterstellung sowie visionäre Aufgaben wie Klassifizierung und Segmentierung unterstützen. Durch das Pretraining auf MedTrinity-25M erreicht unser Modell eine Spitzenleistung bei VQA-RAD und PathVQA, wobei sowohl multimodale große Sprachmodelle als auch andere repräsentative State-of-the-Art-Ansätze übertroffen werden. Dieses Datenset kann auch zur Unterstützung des groß angelegten Pretrainings multimodaler medizinischer KI-Modelle genutzt werden und trägt zur Entwicklung zukünftiger Grundlagenmodelle im medizinischen Bereich bei.
English
This paper introduces MedTrinity-25M, a comprehensive, large-scale multimodal
dataset for medicine, covering over 25 million images across 10 modalities,
with multigranular annotations for more than 65 diseases. These enriched
annotations encompass both global textual information, such as disease/lesion
type, modality, region-specific descriptions, and inter-regional relationships,
as well as detailed local annotations for regions of interest (ROIs), including
bounding boxes, segmentation masks. Unlike existing approach which is limited
by the availability of image-text pairs, we have developed the first automated
pipeline that scales up multimodal data by generating multigranular visual and
texual annotations (in the form of image-ROI-description triplets) without the
need for any paired text descriptions. Specifically, data from over 90
different sources have been collected, preprocessed, and grounded using
domain-specific expert models to identify ROIs related to abnormal regions. We
then build a comprehensive knowledge base and prompt multimodal large language
models to perform retrieval-augmented generation with the identified ROIs as
guidance, resulting in multigranular texual descriptions. Compared to existing
datasets, MedTrinity-25M provides the most enriched annotations, supporting a
comprehensive range of multimodal tasks such as captioning and report
generation, as well as vision-centric tasks like classification and
segmentation. Pretraining on MedTrinity-25M, our model achieves
state-of-the-art performance on VQA-RAD and PathVQA, surpassing both multimodal
large language models and other representative SoTA approaches. This dataset
can also be utilized to support large-scale pre-training of multimodal medical
AI models, contributing to the development of future foundation models in the
medical domain.Summary
AI-Generated Summary