Segmentação Interativa de Imagens Médicas: Um Conjunto de Dados de Referência e Linha de Base
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline
November 19, 2024
Autores: Junlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He
cs.AI
Resumo
A Segmentação Interativa de Imagens Médicas (IMIS) tem sido há muito tempo limitada pela disponibilidade limitada de conjuntos de dados grandes, diversos e densamente anotados, o que dificulta a generalização do modelo e a avaliação consistente entre diferentes modelos. Neste artigo, apresentamos o conjunto de dados de referência IMed-361M, um avanço significativo na pesquisa geral de IMIS. Primeiramente, coletamos e padronizamos mais de 6,4 milhões de imagens médicas e suas máscaras de verdade terreno correspondentes de múltiplas fontes de dados. Em seguida, aproveitando as fortes capacidades de reconhecimento de objetos de um modelo visionário fundamental, geramos automaticamente máscaras interativas densas para cada imagem e garantimos sua qualidade por meio de um rigoroso controle de qualidade e gerenciamento de granularidade. Ao contrário de conjuntos de dados anteriores, que são limitados por modalidades específicas ou anotações esparsas, o IMed-361M abrange 14 modalidades e 204 alvos de segmentação, totalizando 361 milhões de máscaras - uma média de 56 máscaras por imagem. Por fim, desenvolvemos uma rede de referência de IMIS neste conjunto de dados que suporta a geração de máscaras de alta qualidade por meio de entradas interativas, incluindo cliques, caixas delimitadoras, prompts de texto e suas combinações. Avaliamos seu desempenho em tarefas de segmentação de imagens médicas a partir de múltiplas perspectivas, demonstrando precisão e escalabilidade superiores em comparação com modelos de segmentação interativa existentes. Para facilitar a pesquisa em modelos fundamentais em visão computacional médica, disponibilizamos o IMed-361M e o modelo em https://github.com/uni-medical/IMIS-Bench.
English
Interactive Medical Image Segmentation (IMIS) has long been constrained by
the limited availability of large-scale, diverse, and densely annotated
datasets, which hinders model generalization and consistent evaluation across
different models. In this paper, we introduce the IMed-361M benchmark dataset,
a significant advancement in general IMIS research. First, we collect and
standardize over 6.4 million medical images and their corresponding ground
truth masks from multiple data sources. Then, leveraging the strong object
recognition capabilities of a vision foundational model, we automatically
generated dense interactive masks for each image and ensured their quality
through rigorous quality control and granularity management. Unlike previous
datasets, which are limited by specific modalities or sparse annotations,
IMed-361M spans 14 modalities and 204 segmentation targets, totaling 361
million masks-an average of 56 masks per image. Finally, we developed an IMIS
baseline network on this dataset that supports high-quality mask generation
through interactive inputs, including clicks, bounding boxes, text prompts, and
their combinations. We evaluate its performance on medical image segmentation
tasks from multiple perspectives, demonstrating superior accuracy and
scalability compared to existing interactive segmentation models. To facilitate
research on foundational models in medical computer vision, we release the
IMed-361M and model at https://github.com/uni-medical/IMIS-Bench.Summary
AI-Generated Summary