MRGen: Motor de Dados Controlável Baseado em Difusão para Segmentação de Ressonância Magnética em Direção a Modalidades Não Anotadas
MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities
December 4, 2024
Autores: Haoning Wu, Ziheng Zhao, Ya Zhang, Weidi Xie, Yanfeng Wang
cs.AI
Resumo
A segmentação de imagens médicas tem demonstrado recentemente um progresso impressionante com redes neurais profundas, no entanto, as modalidades heterogêneas e a escassez de anotações de máscaras limitam o desenvolvimento de modelos de segmentação em modalidades não anotadas. Este artigo investiga um novo paradigma para alavancar modelos generativos em aplicações médicas: sintetizar de forma controlada dados para modalidades não anotadas, sem a necessidade de pares de dados registrados. Especificamente, apresentamos as seguintes contribuições neste artigo: (i) coletamos e curamos um conjunto de dados de imagem-texto em radiologia em larga escala, MedGen-1M, composto por rótulos de modalidade, atributos, região e informações de órgãos, juntamente com um subconjunto de anotações de máscara de órgãos, para apoiar a pesquisa em geração de imagens médicas controláveis; (ii) propomos um mecanismo de dados baseado em difusão, denominado MRGen, que permite a geração condicionada a prompts de texto e máscaras, sintetizando imagens de RM para diversas modalidades carentes de anotações de máscara, a fim de treinar modelos de segmentação em modalidades não anotadas; (iii) realizamos experimentos extensivos em várias modalidades, ilustrando que nosso mecanismo de dados pode sintetizar efetivamente amostras de treinamento e estender a segmentação de RM para modalidades não anotadas.
English
Medical image segmentation has recently demonstrated impressive progress with
deep neural networks, yet the heterogeneous modalities and scarcity of mask
annotations limit the development of segmentation models on unannotated
modalities. This paper investigates a new paradigm for leveraging generative
models in medical applications: controllably synthesizing data for unannotated
modalities, without requiring registered data pairs. Specifically, we make the
following contributions in this paper: (i) we collect and curate a large-scale
radiology image-text dataset, MedGen-1M, comprising modality labels,
attributes, region, and organ information, along with a subset of organ mask
annotations, to support research in controllable medical image generation; (ii)
we propose a diffusion-based data engine, termed MRGen, which enables
generation conditioned on text prompts and masks, synthesizing MR images for
diverse modalities lacking mask annotations, to train segmentation models on
unannotated modalities; (iii) we conduct extensive experiments across various
modalities, illustrating that our data engine can effectively synthesize
training samples and extend MRI segmentation towards unannotated modalities.Summary
AI-Generated Summary