MRGen: Diffusie-gebaseerde Controleerbare Data Engine voor MRI Segmentatie naar Ongeannoteerde Modaliteiten
MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities
December 4, 2024
Auteurs: Haoning Wu, Ziheng Zhao, Ya Zhang, Weidi Xie, Yanfeng Wang
cs.AI
Samenvatting
Medische beeldsegmentatie heeft recentelijk indrukwekkende vooruitgang laten zien met diepe neurale netwerken, maar de heterogene modaliteiten en schaarste aan maskerannotaties beperken de ontwikkeling van segmentatiemodellen op niet-geannoteerde modaliteiten. Dit artikel onderzoekt een nieuw paradigma voor het benutten van generatieve modellen in medische toepassingen: het controleerbaar synthetiseren van gegevens voor niet-geannoteerde modaliteiten, zonder dat geregistreerde gegevensparen nodig zijn. Specifiek leveren we de volgende bijdragen in dit artikel: (i) we verzamelen en beheren een grootschalige radiologie beeld-tekst dataset, MedGen-1M, bestaande uit modaliteitslabels, kenmerken, regio- en orgaaninformatie, samen met een subset van orgaanmaskerannotaties, ter ondersteuning van onderzoek naar controleerbare medische beeldgeneratie; (ii) we stellen een diffusie-gebaseerde gegevensmotor voor, genaamd MRGen, die generatie mogelijk maakt op basis van tekstprompts en maskers, waarbij MR-beelden worden gesynthetiseerd voor diverse modaliteiten die maskerannotaties missen, om segmentatiemodellen te trainen op niet-geannoteerde modaliteiten; (iii) we voeren uitgebreide experimenten uit over verschillende modaliteiten, waarbij we aantonen dat onze gegevensmotor effectief trainingssamples kan synthetiseren en MRI-segmentatie kan uitbreiden naar niet-geannoteerde modaliteiten.
English
Medical image segmentation has recently demonstrated impressive progress with
deep neural networks, yet the heterogeneous modalities and scarcity of mask
annotations limit the development of segmentation models on unannotated
modalities. This paper investigates a new paradigm for leveraging generative
models in medical applications: controllably synthesizing data for unannotated
modalities, without requiring registered data pairs. Specifically, we make the
following contributions in this paper: (i) we collect and curate a large-scale
radiology image-text dataset, MedGen-1M, comprising modality labels,
attributes, region, and organ information, along with a subset of organ mask
annotations, to support research in controllable medical image generation; (ii)
we propose a diffusion-based data engine, termed MRGen, which enables
generation conditioned on text prompts and masks, synthesizing MR images for
diverse modalities lacking mask annotations, to train segmentation models on
unannotated modalities; (iii) we conduct extensive experiments across various
modalities, illustrating that our data engine can effectively synthesize
training samples and extend MRI segmentation towards unannotated modalities.