SPIDER: Un Conjunto de Datos Supervisado de Patología Multi-Órgano Integral y Modelos de Referencia
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models
March 4, 2025
Autores: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Resumen
El avance de la IA en patología computacional requiere conjuntos de datos grandes, de alta calidad y diversos, aunque los conjuntos de datos públicos existentes suelen estar limitados en diversidad de órganos, cobertura de clases o calidad de anotaciones. Para cerrar esta brecha, presentamos SPIDER (Supervised Pathology Image-DEscription Repository), el conjunto de datos a nivel de parche más grande disponible públicamente que cubre múltiples tipos de órganos, incluyendo Piel, Colorrectal y Tórax, con una cobertura exhaustiva de clases para cada órgano. SPIDER proporciona anotaciones de alta calidad verificadas por patólogos expertos e incluye parches de contexto circundante, lo que mejora el rendimiento de clasificación al proporcionar contexto espacial.
Junto con el conjunto de datos, presentamos modelos de referencia entrenados en SPIDER utilizando el modelo base Hibou-L como extractor de características combinado con una cabecera de clasificación basada en atención. Estos modelos logran un rendimiento de vanguardia en múltiples categorías de tejidos y sirven como puntos de referencia sólidos para futuras investigaciones en patología digital. Más allá de la clasificación de parches, el modelo permite la identificación rápida de áreas significativas, métricas cuantitativas de tejido y establece una base para enfoques multimodales.
Tanto el conjunto de datos como los modelos entrenados están disponibles públicamente para impulsar la investigación, la reproducibilidad y el desarrollo de la IA en patología. Accede a ellos en: https://github.com/HistAI/SPIDER.
English
Advancing AI in computational pathology requires large, high-quality, and
diverse datasets, yet existing public datasets are often limited in organ
diversity, class coverage, or annotation quality. To bridge this gap, we
introduce SPIDER (Supervised Pathology Image-DEscription Repository), the
largest publicly available patch-level dataset covering multiple organ types,
including Skin, Colorectal, and Thorax, with comprehensive class coverage for
each organ. SPIDER provides high-quality annotations verified by expert
pathologists and includes surrounding context patches, which enhance
classification performance by providing spatial context.
Alongside the dataset, we present baseline models trained on SPIDER using the
Hibou-L foundation model as a feature extractor combined with an
attention-based classification head. The models achieve state-of-the-art
performance across multiple tissue categories and serve as strong benchmarks
for future digital pathology research. Beyond patch classification, the model
enables rapid identification of significant areas, quantitative tissue metrics,
and establishes a foundation for multimodal approaches.
Both the dataset and trained models are publicly available to advance
research, reproducibility, and AI-driven pathology development. Access them at:
https://github.com/HistAI/SPIDERSummary
AI-Generated Summary