HISTAI: 계산 병리학을 위한 오픈소스 대규모 전체 슬라이드 이미지 데이터셋
HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology
May 17, 2025
저자: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
초록
디지털 병리학(Digital Pathology, DP) 분야, 특히 인공지능과 파운데이션 모델(Foundation Models)을 통한 최근의 발전은 대규모, 다양성, 그리고 풍부한 주석이 달린 데이터셋의 중요성을 강조해 왔습니다. 그러나 공개된 전체 슬라이드 이미지(Whole Slide Image, WSI) 데이터셋은 종종 충분한 규모, 조직 다양성, 그리고 포괄적인 임상 메타데이터가 부족하여 AI 모델의 견고성과 일반화 능력을 제한하고 있습니다. 이에 대응하여, 우리는 다양한 조직 유형에서 수집된 60,000개 이상의 슬라이드로 구성된 대규모, 다중모달, 오픈 액세스 WSI 컬렉션인 HISTAI 데이터셋을 소개합니다. HISTAI 데이터셋의 각 사례는 진단, 인구통계학적 정보, 상세한 병리학적 주석, 그리고 표준화된 진단 코드를 포함한 광범위한 임상 메타데이터와 함께 제공됩니다. 이 데이터셋은 기존 리소스에서 확인된 격차를 메우고, 혁신, 재현성, 그리고 임상적으로 관련성이 높은 계산 병리학 솔루션의 개발을 촉진하기 위해 설계되었습니다. 데이터셋은 https://github.com/HistAI/HISTAI에서 접근할 수 있습니다.
English
Recent advancements in Digital Pathology (DP), particularly through
artificial intelligence and Foundation Models, have underscored the importance
of large-scale, diverse, and richly annotated datasets. Despite their critical
role, publicly available Whole Slide Image (WSI) datasets often lack sufficient
scale, tissue diversity, and comprehensive clinical metadata, limiting the
robustness and generalizability of AI models. In response, we introduce the
HISTAI dataset, a large, multimodal, open-access WSI collection comprising over
60,000 slides from various tissue types. Each case in the HISTAI dataset is
accompanied by extensive clinical metadata, including diagnosis, demographic
information, detailed pathological annotations, and standardized diagnostic
coding. The dataset aims to fill gaps identified in existing resources,
promoting innovation, reproducibility, and the development of clinically
relevant computational pathology solutions. The dataset can be accessed at
https://github.com/HistAI/HISTAI.Summary
AI-Generated Summary