SPIDER: Un Dataset Completo di Patologia Multi-Organo Supervisionato e Modelli di Riferimento
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models
March 4, 2025
Autori: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Abstract
Il progresso dell'IA nella patologia computazionale richiede dataset ampi, di alta qualità e diversificati, ma gli attuali dataset pubblici sono spesso limitati nella diversità degli organi, nella copertura delle classi o nella qualità delle annotazioni. Per colmare questa lacuna, presentiamo SPIDER (Supervised Pathology Image-DEscription Repository), il più grande dataset disponibile pubblicamente a livello di patch che copre diversi tipi di organi, tra cui pelle, colon-retto e torace, con una copertura completa delle classi per ciascun organo. SPIDER fornisce annotazioni di alta qualità verificate da patologi esperti e include patch di contesto circostante, che migliorano le prestazioni di classificazione fornendo un contesto spaziale.
Insieme al dataset, presentiamo modelli di base addestrati su SPIDER utilizzando il modello fondazionale Hibou-L come estrattore di caratteristiche combinato con una testa di classificazione basata sull'attenzione. I modelli raggiungono prestazioni all'avanguardia in diverse categorie di tessuti e rappresentano solidi benchmark per la futura ricerca in patologia digitale. Oltre alla classificazione delle patch, il modello consente l'identificazione rapida di aree significative, metriche quantitative dei tessuti e getta le basi per approcci multimodali.
Sia il dataset che i modelli addestrati sono disponibili pubblicamente per promuovere la ricerca, la riproducibilità e lo sviluppo dell'IA nella patologia. È possibile accedervi al seguente indirizzo: https://github.com/HistAI/SPIDER
English
Advancing AI in computational pathology requires large, high-quality, and
diverse datasets, yet existing public datasets are often limited in organ
diversity, class coverage, or annotation quality. To bridge this gap, we
introduce SPIDER (Supervised Pathology Image-DEscription Repository), the
largest publicly available patch-level dataset covering multiple organ types,
including Skin, Colorectal, and Thorax, with comprehensive class coverage for
each organ. SPIDER provides high-quality annotations verified by expert
pathologists and includes surrounding context patches, which enhance
classification performance by providing spatial context.
Alongside the dataset, we present baseline models trained on SPIDER using the
Hibou-L foundation model as a feature extractor combined with an
attention-based classification head. The models achieve state-of-the-art
performance across multiple tissue categories and serve as strong benchmarks
for future digital pathology research. Beyond patch classification, the model
enables rapid identification of significant areas, quantitative tissue metrics,
and establishes a foundation for multimodal approaches.
Both the dataset and trained models are publicly available to advance
research, reproducibility, and AI-driven pathology development. Access them at:
https://github.com/HistAI/SPIDERSummary
AI-Generated Summary