SPIDER: 多臓器にわたる包括的な教師あり病理データセットとベースラインモデル
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models
March 4, 2025
著者: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
要旨
計算病理学におけるAIの進展には、大規模で高品質かつ多様なデータセットが必要ですが、既存の公開データセットは臓器の多様性、クラスカバレッジ、またはアノテーション品質において制限されることが多いです。このギャップを埋めるため、私たちはSPIDER(Supervised Pathology Image-DEscription Repository)を紹介します。これは、皮膚、大腸、胸部を含む複数の臓器タイプをカバーする最大の公開パッチレベルデータセットで、各臓器に対する包括的なクラスカバレッジを提供します。SPIDERは、専門の病理学者によって検証された高品質なアノテーションを提供し、空間的コンテキストを提供することで分類性能を向上させる周辺コンテキストパッチも含んでいます。
データセットとともに、Hibou-L基盤モデルを特徴抽出器として使用し、アテンションベースの分類ヘッドと組み合わせてSPIDERでトレーニングされたベースラインモデルを提示します。これらのモデルは、複数の組織カテゴリーにおいて最先端の性能を達成し、将来のデジタル病理学研究のための強力なベンチマークとして機能します。パッチ分類を超えて、このモデルは重要な領域の迅速な識別、定量的組織メトリクス、およびマルチモーダルアプローチの基盤を確立します。
データセットとトレーニング済みモデルの両方が公開されており、研究、再現性、およびAI駆動の病理学開発を推進します。以下からアクセスできます:https://github.com/HistAI/SPIDER
English
Advancing AI in computational pathology requires large, high-quality, and
diverse datasets, yet existing public datasets are often limited in organ
diversity, class coverage, or annotation quality. To bridge this gap, we
introduce SPIDER (Supervised Pathology Image-DEscription Repository), the
largest publicly available patch-level dataset covering multiple organ types,
including Skin, Colorectal, and Thorax, with comprehensive class coverage for
each organ. SPIDER provides high-quality annotations verified by expert
pathologists and includes surrounding context patches, which enhance
classification performance by providing spatial context.
Alongside the dataset, we present baseline models trained on SPIDER using the
Hibou-L foundation model as a feature extractor combined with an
attention-based classification head. The models achieve state-of-the-art
performance across multiple tissue categories and serve as strong benchmarks
for future digital pathology research. Beyond patch classification, the model
enables rapid identification of significant areas, quantitative tissue metrics,
and establishes a foundation for multimodal approaches.
Both the dataset and trained models are publicly available to advance
research, reproducibility, and AI-driven pathology development. Access them at:
https://github.com/HistAI/SPIDERSummary
AI-Generated Summary