SPIDER : Un ensemble de données pathologiques supervisé multi-organes complet et modèles de référence
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models
March 4, 2025
Auteurs: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Résumé
Le progrès de l'IA en pathologie computationnelle nécessite des ensembles de données volumineux, de haute qualité et diversifiés. Cependant, les ensembles de données publics existants sont souvent limités en termes de diversité d'organes, de couverture de classes ou de qualité d'annotations. Pour combler cette lacune, nous présentons SPIDER (Supervised Pathology Image-DEscription Repository), le plus grand ensemble de données disponible publiquement au niveau des patches, couvrant plusieurs types d'organes, notamment la peau, le côlon-rectum et le thorax, avec une couverture complète des classes pour chaque organe. SPIDER fournit des annotations de haute qualité vérifiées par des pathologistes experts et inclut des patches de contexte environnant, qui améliorent les performances de classification en fournissant un contexte spatial.
Parallèlement à l'ensemble de données, nous présentons des modèles de référence entraînés sur SPIDER en utilisant le modèle de base Hibou-L comme extracteur de caractéristiques, combiné à une tête de classification basée sur l'attention. Ces modèles atteignent des performances de pointe à travers plusieurs catégories de tissus et servent de références solides pour les futures recherches en pathologie numérique. Au-delà de la classification des patches, le modèle permet une identification rapide des zones significatives, des métriques quantitatives des tissus, et établit une base pour des approches multimodales.
L'ensemble de données et les modèles entraînés sont tous deux disponibles publiquement pour faire progresser la recherche, la reproductibilité et le développement de l'IA en pathologie. Accédez-y à l'adresse suivante : https://github.com/HistAI/SPIDER
English
Advancing AI in computational pathology requires large, high-quality, and
diverse datasets, yet existing public datasets are often limited in organ
diversity, class coverage, or annotation quality. To bridge this gap, we
introduce SPIDER (Supervised Pathology Image-DEscription Repository), the
largest publicly available patch-level dataset covering multiple organ types,
including Skin, Colorectal, and Thorax, with comprehensive class coverage for
each organ. SPIDER provides high-quality annotations verified by expert
pathologists and includes surrounding context patches, which enhance
classification performance by providing spatial context.
Alongside the dataset, we present baseline models trained on SPIDER using the
Hibou-L foundation model as a feature extractor combined with an
attention-based classification head. The models achieve state-of-the-art
performance across multiple tissue categories and serve as strong benchmarks
for future digital pathology research. Beyond patch classification, the model
enables rapid identification of significant areas, quantitative tissue metrics,
and establishes a foundation for multimodal approaches.
Both the dataset and trained models are publicly available to advance
research, reproducibility, and AI-driven pathology development. Access them at:
https://github.com/HistAI/SPIDERSummary
AI-Generated Summary