Интерактивная сегментация медицинских изображений: набор данных и базовый уровень.
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline
November 19, 2024
Авторы: Junlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He
cs.AI
Аннотация
Интерактивная сегментация медицинских изображений (IMIS) долгое время ограничивалась ограниченной доступностью масштабных, разнообразных и плотно аннотированных наборов данных, что затрудняло обобщение моделей и последующую оценку их работы. В данной статье мы представляем набор данных IMed-361M, значительный прогресс в исследованиях по IMIS. Сначала мы собрали и стандартизировали более 6,4 миллионов медицинских изображений и соответствующие им маски истинных значений из нескольких источников данных. Затем, используя сильные возможности распознавания объектов модели основного зрения, мы автоматически сгенерировали плотные интерактивные маски для каждого изображения и обеспечили их качество через строгий контроль качества и управление детализацией. В отличие от предыдущих наборов данных, ограниченных определенными модальностями или разреженными аннотациями, IMed-361M охватывает 14 модальностей и 204 цели сегментации, всего 361 миллион масок - в среднем 56 масок на изображение. Наконец, мы разработали базовую сеть IMIS на этом наборе данных, которая поддерживает генерацию масок высокого качества через интерактивные входные данные, включая клики, ограничивающие рамки, текстовые подсказки и их комбинации. Мы оценили ее производительность на задачах сегментации медицинских изображений с разных точек зрения, продемонстрировав превосходную точность и масштабируемость по сравнению с существующими моделями интерактивной сегментации. Для облегчения исследований по основным моделям в медицинском компьютерном зрении мы выпустили IMed-361M и модель на https://github.com/uni-medical/IMIS-Bench.
English
Interactive Medical Image Segmentation (IMIS) has long been constrained by
the limited availability of large-scale, diverse, and densely annotated
datasets, which hinders model generalization and consistent evaluation across
different models. In this paper, we introduce the IMed-361M benchmark dataset,
a significant advancement in general IMIS research. First, we collect and
standardize over 6.4 million medical images and their corresponding ground
truth masks from multiple data sources. Then, leveraging the strong object
recognition capabilities of a vision foundational model, we automatically
generated dense interactive masks for each image and ensured their quality
through rigorous quality control and granularity management. Unlike previous
datasets, which are limited by specific modalities or sparse annotations,
IMed-361M spans 14 modalities and 204 segmentation targets, totaling 361
million masks-an average of 56 masks per image. Finally, we developed an IMIS
baseline network on this dataset that supports high-quality mask generation
through interactive inputs, including clicks, bounding boxes, text prompts, and
their combinations. We evaluate its performance on medical image segmentation
tasks from multiple perspectives, demonstrating superior accuracy and
scalability compared to existing interactive segmentation models. To facilitate
research on foundational models in medical computer vision, we release the
IMed-361M and model at https://github.com/uni-medical/IMIS-Bench.Summary
AI-Generated Summary