SPIDER: Um Conjunto de Dados Abrangente de Patologia Multi-Órgãos Supervisionado e Modelos de Referência
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models
March 4, 2025
Autores: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Resumo
O avanço da IA em patologia computacional requer grandes conjuntos de dados de alta qualidade e diversificados, mas os conjuntos de dados públicos existentes são frequentemente limitados em termos de diversidade de órgãos, cobertura de classes ou qualidade das anotações. Para preencher essa lacuna, apresentamos o SPIDER (Supervised Pathology Image-DEscription Repository), o maior conjunto de dados publicamente disponível em nível de *patch* que abrange múltiplos tipos de órgãos, incluindo Pele, Colorretal e Tórax, com cobertura abrangente de classes para cada órgão. O SPIDER fornece anotações de alta qualidade verificadas por patologistas especialistas e inclui *patches* de contexto circundante, que melhoram o desempenho da classificação ao fornecer contexto espacial.
Juntamente com o conjunto de dados, apresentamos modelos de referência treinados no SPIDER utilizando o modelo base Hibou-L como extrator de características combinado com um cabeçalho de classificação baseado em atenção. Os modelos alcançam desempenho de ponta em múltiplas categorias de tecidos e servem como benchmarks robustos para futuras pesquisas em patologia digital. Além da classificação de *patches*, o modelo permite a identificação rápida de áreas significativas, métricas quantitativas de tecido e estabelece uma base para abordagens multimodais.
Tanto o conjunto de dados quanto os modelos treinados estão publicamente disponíveis para impulsionar a pesquisa, a reprodutibilidade e o desenvolvimento de patologia impulsionada por IA. Acesse-os em: https://github.com/HistAI/SPIDER
English
Advancing AI in computational pathology requires large, high-quality, and
diverse datasets, yet existing public datasets are often limited in organ
diversity, class coverage, or annotation quality. To bridge this gap, we
introduce SPIDER (Supervised Pathology Image-DEscription Repository), the
largest publicly available patch-level dataset covering multiple organ types,
including Skin, Colorectal, and Thorax, with comprehensive class coverage for
each organ. SPIDER provides high-quality annotations verified by expert
pathologists and includes surrounding context patches, which enhance
classification performance by providing spatial context.
Alongside the dataset, we present baseline models trained on SPIDER using the
Hibou-L foundation model as a feature extractor combined with an
attention-based classification head. The models achieve state-of-the-art
performance across multiple tissue categories and serve as strong benchmarks
for future digital pathology research. Beyond patch classification, the model
enables rapid identification of significant areas, quantitative tissue metrics,
and establishes a foundation for multimodal approaches.
Both the dataset and trained models are publicly available to advance
research, reproducibility, and AI-driven pathology development. Access them at:
https://github.com/HistAI/SPIDERSummary
AI-Generated Summary