ChatPaper.aiChatPaper

SPIDER: 다중 장기 감독 병리 데이터셋 및 베이스라인 모델의 포괄적 모음

SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models

March 4, 2025
저자: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

초록

계산 병리학(computational pathology) 분야에서 AI를 발전시키기 위해서는 대규모의 고품질이고 다양한 데이터셋이 필요하지만, 기존의 공개 데이터셋은 종종 장기 다양성, 클래스 범위 또는 주석 품질 측면에서 제한적입니다. 이러한 격차를 해소하기 위해 우리는 SPIDER(Supervised Pathology Image-DEscription Repository)를 소개합니다. SPIDER는 피부(Skin), 대장(Colorectal), 흉부(Thorax)를 포함한 여러 장기 유형을 다루는 가장 큰 공개 패치 수준 데이터셋으로, 각 장기에 대한 포괄적인 클래스 범위를 제공합니다. SPIDER는 전문 병리학자들이 검증한 고품질 주석을 제공하며, 공간적 맥락을 제공하여 분류 성능을 향상시키는 주변 맥락 패치를 포함합니다. 데이터셋과 함께, 우리는 Hibou-L 기반 모델을 특징 추출기로 사용하고 주의 기반 분류 헤드와 결합하여 SPIDER로 훈련된 베이스라인 모델을 제시합니다. 이 모델은 여러 조직 범주에서 최첨단 성능을 달성하며, 향후 디지털 병리학 연구를 위한 강력한 벤치마크 역할을 합니다. 패치 분류를 넘어, 이 모델은 중요한 영역의 신속한 식별, 정량적 조직 지표를 가능하게 하고, 다중 모달 접근법의 기반을 마련합니다. 데이터셋과 훈련된 모델은 연구, 재현성, AI 기반 병리학 발전을 촉진하기 위해 공개되었습니다. 다음 링크에서 접근할 수 있습니다: https://github.com/HistAI/SPIDER
English
Advancing AI in computational pathology requires large, high-quality, and diverse datasets, yet existing public datasets are often limited in organ diversity, class coverage, or annotation quality. To bridge this gap, we introduce SPIDER (Supervised Pathology Image-DEscription Repository), the largest publicly available patch-level dataset covering multiple organ types, including Skin, Colorectal, and Thorax, with comprehensive class coverage for each organ. SPIDER provides high-quality annotations verified by expert pathologists and includes surrounding context patches, which enhance classification performance by providing spatial context. Alongside the dataset, we present baseline models trained on SPIDER using the Hibou-L foundation model as a feature extractor combined with an attention-based classification head. The models achieve state-of-the-art performance across multiple tissue categories and serve as strong benchmarks for future digital pathology research. Beyond patch classification, the model enables rapid identification of significant areas, quantitative tissue metrics, and establishes a foundation for multimodal approaches. Both the dataset and trained models are publicly available to advance research, reproducibility, and AI-driven pathology development. Access them at: https://github.com/HistAI/SPIDER
PDF42March 5, 2025