MRGen: Диффузионный управляемый движок данных для сегментации МРТ на основе диффузии в направлении немаркированных модальностей

Аннотация

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенность модальностей и недостаток масок аннотаций ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемое синтезирование данных для неаннотированных модальностей без необходимости зарегистрированных пар данных. Конкретно, в данной статье мы вносим следующие вклады: (i) мы собираем и курируем крупномасштабный набор данных изображений и текстов радиологии, MedGen-1M, включающий метки модальности, атрибуты, информацию о регионе и органе, а также подмножество аннотаций масок органов для поддержки исследований в области контролируемой генерации медицинских изображений; (ii) мы предлагаем движок данных на основе диффузии, названный MRGen, который позволяет генерировать данные на основе текстовых подсказок и масок, синтезируя МР-изображения для различных модальностей, лишенных аннотаций масок, для обучения моделей сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, демонстрируя, что наш движок данных может эффективно синтезировать обучающие выборки и расширять сегментацию МРТ в сторону неаннотированных модальностей.

English

Medical image segmentation has recently demonstrated impressive progress with deep neural networks, yet the heterogeneous modalities and scarcity of mask annotations limit the development of segmentation models on unannotated modalities. This paper investigates a new paradigm for leveraging generative models in medical applications: controllably synthesizing data for unannotated modalities, without requiring registered data pairs. Specifically, we make the following contributions in this paper: (i) we collect and curate a large-scale radiology image-text dataset, MedGen-1M, comprising modality labels, attributes, region, and organ information, along with a subset of organ mask annotations, to support research in controllable medical image generation; (ii) we propose a diffusion-based data engine, termed MRGen, which enables generation conditioned on text prompts and masks, synthesizing MR images for diverse modalities lacking mask annotations, to train segmentation models on unannotated modalities; (iii) we conduct extensive experiments across various modalities, illustrating that our data engine can effectively synthesize training samples and extend MRI segmentation towards unannotated modalities.

MRGen: Диффузионный управляемый движок данных для сегментации МРТ на основе диффузии в направлении немаркированных модальностей

MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities

Аннотация

Support