MRGen: Diffusionsbasierte steuerbare Datenmaschine für die Segmentierung von MRT in Richtung unannotierter Modalitäten
MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities
December 4, 2024
Autoren: Haoning Wu, Ziheng Zhao, Ya Zhang, Weidi Xie, Yanfeng Wang
cs.AI
Zusammenfassung
Die Segmentierung von medizinischen Bildern hat kürzlich beeindruckende Fortschritte mit tiefen neuronalen Netzwerken gezeigt, doch die heterogenen Modalitäten und die Knappheit von Maskenannotationen begrenzen die Entwicklung von Segmentierungsmodellen auf nicht annotierten Modalitäten. Diese Arbeit untersucht ein neues Paradigma zur Nutzung generativer Modelle in medizinischen Anwendungen: die kontrollierte Synthese von Daten für nicht annotierte Modalitäten, ohne registrierte Datenpaare zu benötigen. Konkret leisten wir in dieser Arbeit folgende Beiträge: (i) Wir sammeln und kuratieren einen umfangreichen Radiologie-Bild-Text-Datensatz, MedGen-1M, bestehend aus Modalitätslabels, Attributen, Regionen- und Organinformationen sowie einem Teil von Organmaskenannotationen, um die Forschung in der kontrollierten medizinischen Bildgenerierung zu unterstützen; (ii) Wir schlagen eine auf Diffusion basierende Datenengine vor, genannt MRGen, die die Generierung abhängig von Texteingaben und Masken ermöglicht, um MR-Bilder für verschiedene Modalitäten ohne Maskenannotationen zu synthetisieren und Segmentierungsmodelle auf nicht annotierten Modalitäten zu trainieren; (iii) Wir führen umfangreiche Experimente über verschiedene Modalitäten hinweg durch, die zeigen, dass unsere Datenengine effektiv Trainingsbeispiele synthetisieren kann und die MRI-Segmentierung auf nicht annotierte Modalitäten ausweiten kann.
English
Medical image segmentation has recently demonstrated impressive progress with
deep neural networks, yet the heterogeneous modalities and scarcity of mask
annotations limit the development of segmentation models on unannotated
modalities. This paper investigates a new paradigm for leveraging generative
models in medical applications: controllably synthesizing data for unannotated
modalities, without requiring registered data pairs. Specifically, we make the
following contributions in this paper: (i) we collect and curate a large-scale
radiology image-text dataset, MedGen-1M, comprising modality labels,
attributes, region, and organ information, along with a subset of organ mask
annotations, to support research in controllable medical image generation; (ii)
we propose a diffusion-based data engine, termed MRGen, which enables
generation conditioned on text prompts and masks, synthesizing MR images for
diverse modalities lacking mask annotations, to train segmentation models on
unannotated modalities; (iii) we conduct extensive experiments across various
modalities, illustrating that our data engine can effectively synthesize
training samples and extend MRI segmentation towards unannotated modalities.Summary
AI-Generated Summary