SPIDER: Ein umfassender, überwachter Pathologie-Datensatz für mehrere Organe und Baseline-Modelle
SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models
March 4, 2025
Autoren: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Zusammenfassung
Die Weiterentwicklung von KI in der computergestützten Pathologie erfordert große, hochwertige und vielfältige Datensätze. Bisherige öffentliche Datensätze sind jedoch oft in Bezug auf Organvielfalt, Klassenabdeckung oder Annotationsqualität eingeschränkt. Um diese Lücke zu schließen, stellen wir SPIDER (Supervised Pathology Image-DEscription Repository) vor, den größten öffentlich verfügbaren Patch-Level-Datensatz, der mehrere Organtypen wie Haut, Kolorektal und Thorax abdeckt, mit umfassender Klassenabdeckung für jedes Organ. SPIDER bietet hochwertige, von Expert:innen verifizierte Annotationen und enthält umgebende Kontext-Patches, die die Klassifikationsleistung durch die Bereitstellung räumlicher Kontexte verbessern.
Neben dem Datensatz präsentieren wir Baseline-Modelle, die auf SPIDER trainiert wurden und das Hibou-L-Foundation-Modell als Feature-Extraktor in Kombination mit einem auf Aufmerksamkeit basierenden Klassifikationskopf verwenden. Die Modelle erzielen state-of-the-art Leistungen über mehrere Gewebekategorien hinweg und dienen als starke Benchmarks für zukünftige Forschung in der digitalen Pathologie. Über die Patch-Klassifikation hinaus ermöglicht das Modell die schnelle Identifizierung signifikanter Bereiche, quantitative Gewebemetriken und legt die Grundlage für multimodale Ansätze.
Sowohl der Datensatz als auch die trainierten Modelle sind öffentlich verfügbar, um Forschung, Reproduzierbarkeit und KI-gestützte Pathologieentwicklung voranzutreiben. Zugriff unter: https://github.com/HistAI/SPIDER
English
Advancing AI in computational pathology requires large, high-quality, and
diverse datasets, yet existing public datasets are often limited in organ
diversity, class coverage, or annotation quality. To bridge this gap, we
introduce SPIDER (Supervised Pathology Image-DEscription Repository), the
largest publicly available patch-level dataset covering multiple organ types,
including Skin, Colorectal, and Thorax, with comprehensive class coverage for
each organ. SPIDER provides high-quality annotations verified by expert
pathologists and includes surrounding context patches, which enhance
classification performance by providing spatial context.
Alongside the dataset, we present baseline models trained on SPIDER using the
Hibou-L foundation model as a feature extractor combined with an
attention-based classification head. The models achieve state-of-the-art
performance across multiple tissue categories and serve as strong benchmarks
for future digital pathology research. Beyond patch classification, the model
enables rapid identification of significant areas, quantitative tissue metrics,
and establishes a foundation for multimodal approaches.
Both the dataset and trained models are publicly available to advance
research, reproducibility, and AI-driven pathology development. Access them at:
https://github.com/HistAI/SPIDERSummary
AI-Generated Summary