IMA++: Мультианнотированный датасет сегментации дерматоскопических поражений кожи из архива ISIC
IMA++: ISIC Archive Multi-Annotator Dermoscopic Skin Lesion Segmentation Dataset
December 25, 2025
Авторы: Kumar Abhishek, Jeremy Kawahara, Ghassan Hamarneh
cs.AI
Аннотация
Мультианнотированная сегментация медицинских изображений является важной исследовательской задачей, но требует размеченных наборов данных, сбор которых сопряжен с высокими затратами. Дерматоскопическая визуализация кожных поражений позволяет экспертам-людям и системам ИИ наблюдать морфологические структуры, которые невозможно различить на стандартных клинических фотографиях. Однако в настоящее время не существует крупномасштабных общедоступных наборов данных для мультианнотированной сегментации кожных поражений (SLS), содержащих разметку от разных аннотаторов для дерматоскопических изображений. Мы представляем ISIC MultiAnnot++ — крупный публичный набор данных для мультианнотированной сегментации кожных поражений на изображениях из архива ISIC. Финальный набор данных содержит 17 684 маски сегментации, охватывающих 14 967 дерматоскопических изображений, причем 2 394 изображения имеют от 2 до 5 сегментаций на каждое, что делает его крупнейшим общедоступным набором данных SLS. Кроме того, включены метаданные о сегментации, включая уровень квалификации аннотаторов и используемый инструмент разметки, что открывает возможности для исследований таких тем, как моделирование предпочтений конкретных аннотаторов при сегментации и анализ их метаданных. Мы предоставляем анализ характеристик этого набора данных, курированные разделы данных и консенсусные маски сегментации.
English
Multi-annotator medical image segmentation is an important research problem, but requires annotated datasets that are expensive to collect. Dermoscopic skin lesion imaging allows human experts and AI systems to observe morphological structures otherwise not discernable from regular clinical photographs. However, currently there are no large-scale publicly available multi-annotator skin lesion segmentation (SLS) datasets with annotator-labels for dermoscopic skin lesion imaging. We introduce ISIC MultiAnnot++, a large public multi-annotator skin lesion segmentation dataset for images from the ISIC Archive. The final dataset contains 17,684 segmentation masks spanning 14,967 dermoscopic images, where 2,394 dermoscopic images have 2-5 segmentations per image, making it the largest publicly available SLS dataset. Further, metadata about the segmentation, including the annotators' skill level and segmentation tool, is included, enabling research on topics such as annotator-specific preference modeling for segmentation and annotator metadata analysis. We provide an analysis on the characteristics of this dataset, curated data partitions, and consensus segmentation masks.