SPIDER : Un ensemble de données pathologiques supervisé multi-organes complet et modèles de référence

Résumé

Le progrès de l'IA en pathologie computationnelle nécessite des ensembles de données volumineux, de haute qualité et diversifiés. Cependant, les ensembles de données publics existants sont souvent limités en termes de diversité d'organes, de couverture de classes ou de qualité d'annotations. Pour combler cette lacune, nous présentons SPIDER (Supervised Pathology Image-DEscription Repository), le plus grand ensemble de données disponible publiquement au niveau des patches, couvrant plusieurs types d'organes, notamment la peau, le côlon-rectum et le thorax, avec une couverture complète des classes pour chaque organe. SPIDER fournit des annotations de haute qualité vérifiées par des pathologistes experts et inclut des patches de contexte environnant, qui améliorent les performances de classification en fournissant un contexte spatial. Parallèlement à l'ensemble de données, nous présentons des modèles de référence entraînés sur SPIDER en utilisant le modèle de base Hibou-L comme extracteur de caractéristiques, combiné à une tête de classification basée sur l'attention. Ces modèles atteignent des performances de pointe à travers plusieurs catégories de tissus et servent de références solides pour les futures recherches en pathologie numérique. Au-delà de la classification des patches, le modèle permet une identification rapide des zones significatives, des métriques quantitatives des tissus, et établit une base pour des approches multimodales. L'ensemble de données et les modèles entraînés sont tous deux disponibles publiquement pour faire progresser la recherche, la reproductibilité et le développement de l'IA en pathologie. Accédez-y à l'adresse suivante : https://github.com/HistAI/SPIDER

English

Advancing AI in computational pathology requires large, high-quality, and diverse datasets, yet existing public datasets are often limited in organ diversity, class coverage, or annotation quality. To bridge this gap, we introduce SPIDER (Supervised Pathology Image-DEscription Repository), the largest publicly available patch-level dataset covering multiple organ types, including Skin, Colorectal, and Thorax, with comprehensive class coverage for each organ. SPIDER provides high-quality annotations verified by expert pathologists and includes surrounding context patches, which enhance classification performance by providing spatial context. Alongside the dataset, we present baseline models trained on SPIDER using the Hibou-L foundation model as a feature extractor combined with an attention-based classification head. The models achieve state-of-the-art performance across multiple tissue categories and serve as strong benchmarks for future digital pathology research. Beyond patch classification, the model enables rapid identification of significant areas, quantitative tissue metrics, and establishes a foundation for multimodal approaches. Both the dataset and trained models are publicly available to advance research, reproducibility, and AI-driven pathology development. Access them at: https://github.com/HistAI/SPIDER