ChatPaper.aiChatPaper

SPIDER: Een uitgebreide multi-orgaan gesuperviseerde pathologie-dataset en basislijnmodellen

SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models

March 4, 2025
Auteurs: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

Samenvatting

Het bevorderen van AI in computationele pathologie vereist grote, hoogwaardige en diverse datasets, maar bestaande openbare datasets zijn vaak beperkt in orgaandiversiteit, klasse-dekking of annotatiekwaliteit. Om deze kloof te overbruggen, introduceren we SPIDER (Supervised Pathology Image-DEscription Repository), de grootste openbaar beschikbare patch-level dataset die meerdere orgeltypen omvat, waaronder Huid, Colorectaal en Thorax, met een uitgebreide klasse-dekking voor elk orgaan. SPIDER biedt hoogwaardige annotaties die zijn geverifieerd door expert-pathologen en omvat omringende contextpatches, die de classificatieprestaties verbeteren door ruimtelijke context te bieden. Naast de dataset presenteren we baseline-modellen die op SPIDER zijn getraind met behulp van het Hibou-L foundation model als feature extractor, gecombineerd met een op aandacht gebaseerde classificatiekop. De modellen behalen state-of-the-art prestaties over meerdere weefselcategorieën en dienen als sterke benchmarks voor toekomstig digitaal pathologieonderzoek. Naast patchclassificatie maakt het model snelle identificatie van significante gebieden, kwantitatieve weefselmetingen mogelijk en legt het een basis voor multimodale benaderingen. Zowel de dataset als de getrainde modellen zijn openbaar beschikbaar om onderzoek, reproduceerbaarheid en AI-gestuurde pathologieontwikkeling te bevorderen. Toegang is beschikbaar op: https://github.com/HistAI/SPIDER
English
Advancing AI in computational pathology requires large, high-quality, and diverse datasets, yet existing public datasets are often limited in organ diversity, class coverage, or annotation quality. To bridge this gap, we introduce SPIDER (Supervised Pathology Image-DEscription Repository), the largest publicly available patch-level dataset covering multiple organ types, including Skin, Colorectal, and Thorax, with comprehensive class coverage for each organ. SPIDER provides high-quality annotations verified by expert pathologists and includes surrounding context patches, which enhance classification performance by providing spatial context. Alongside the dataset, we present baseline models trained on SPIDER using the Hibou-L foundation model as a feature extractor combined with an attention-based classification head. The models achieve state-of-the-art performance across multiple tissue categories and serve as strong benchmarks for future digital pathology research. Beyond patch classification, the model enables rapid identification of significant areas, quantitative tissue metrics, and establishes a foundation for multimodal approaches. Both the dataset and trained models are publicly available to advance research, reproducibility, and AI-driven pathology development. Access them at: https://github.com/HistAI/SPIDER

Summary

AI-Generated Summary

PDF42March 5, 2025