ChatPaper.aiChatPaper

HISTAI: 計算病理学のための大規模なオープンソース全スライド画像データセット

HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

May 17, 2025
著者: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

要旨

デジタル病理学(DP)における最近の進展、特に人工知能とFoundation Modelsを通じた進展は、大規模で多様性に富み、詳細な注釈が付けられたデータセットの重要性を浮き彫りにしています。その重要な役割にもかかわらず、公開されているWhole Slide Image(WSI)データセットは、しばしば十分な規模、組織の多様性、包括的な臨床メタデータを欠いており、AIモデルの堅牢性と汎用性を制限しています。これに対応して、我々はHISTAIデータセットを紹介します。これは、様々な組織タイプからなる60,000枚以上のスライドを含む、大規模でマルチモーダルなオープンアクセスのWSIコレクションです。HISTAIデータセットの各症例には、診断、人口統計情報、詳細な病理学的注釈、標準化された診断コードを含む広範な臨床メタデータが付属しています。このデータセットは、既存のリソースで特定されたギャップを埋めることを目指し、イノベーション、再現性、臨床的に関連性の高い計算病理学ソリューションの開発を促進します。データセットはhttps://github.com/HistAI/HISTAIでアクセス可能です。
English
Recent advancements in Digital Pathology (DP), particularly through artificial intelligence and Foundation Models, have underscored the importance of large-scale, diverse, and richly annotated datasets. Despite their critical role, publicly available Whole Slide Image (WSI) datasets often lack sufficient scale, tissue diversity, and comprehensive clinical metadata, limiting the robustness and generalizability of AI models. In response, we introduce the HISTAI dataset, a large, multimodal, open-access WSI collection comprising over 60,000 slides from various tissue types. Each case in the HISTAI dataset is accompanied by extensive clinical metadata, including diagnosis, demographic information, detailed pathological annotations, and standardized diagnostic coding. The dataset aims to fill gaps identified in existing resources, promoting innovation, reproducibility, and the development of clinically relevant computational pathology solutions. The dataset can be accessed at https://github.com/HistAI/HISTAI.

Summary

AI-Generated Summary

PDF32May 20, 2025