ChatPaper.aiChatPaper

HISTAI: Een Open-Source, Grootschalige Whole Slide Image Dataset voor Computationele Pathologie

HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

May 17, 2025
Auteurs: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

Samenvatting

Recente ontwikkelingen in Digitale Pathologie (DP), met name door middel van kunstmatige intelligentie en Foundation Models, hebben het belang benadrukt van grootschalige, diverse en rijkelijk geannoteerde datasets. Ondanks hun cruciale rol ontbreekt het vaak aan voldoende schaal, weefseldiversiteit en uitgebreide klinische metadata in publiek beschikbare Whole Slide Image (WSI)-datasets, wat de robuustheid en generaliseerbaarheid van AI-modellen beperkt. Als reactie hierop introduceren we de HISTAI-dataset, een grote, multimodale, open-access WSI-collectie bestaande uit meer dan 60.000 slides van verschillende weefseltypen. Elk geval in de HISTAI-dataset wordt vergezeld door uitgebreide klinische metadata, waaronder diagnose, demografische informatie, gedetailleerde pathologische annotaties en gestandaardiseerde diagnostische codering. De dataset heeft als doel de hiaten in bestaande bronnen op te vullen, innovatie, reproduceerbaarheid en de ontwikkeling van klinisch relevante computationele pathologieoplossingen te bevorderen. De dataset is toegankelijk op https://github.com/HistAI/HISTAI.
English
Recent advancements in Digital Pathology (DP), particularly through artificial intelligence and Foundation Models, have underscored the importance of large-scale, diverse, and richly annotated datasets. Despite their critical role, publicly available Whole Slide Image (WSI) datasets often lack sufficient scale, tissue diversity, and comprehensive clinical metadata, limiting the robustness and generalizability of AI models. In response, we introduce the HISTAI dataset, a large, multimodal, open-access WSI collection comprising over 60,000 slides from various tissue types. Each case in the HISTAI dataset is accompanied by extensive clinical metadata, including diagnosis, demographic information, detailed pathological annotations, and standardized diagnostic coding. The dataset aims to fill gaps identified in existing resources, promoting innovation, reproducibility, and the development of clinically relevant computational pathology solutions. The dataset can be accessed at https://github.com/HistAI/HISTAI.

Summary

AI-Generated Summary

PDF32May 20, 2025