ChatPaper.aiChatPaper

HISTAI: Un Dataset Open-Source su Larga Scala di Immagini di Interi Vetrini per la Patologia Computazionale

HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

May 17, 2025
Autori: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

Abstract

I recenti progressi nella Patologia Digitale (DP), in particolare attraverso l'intelligenza artificiale e i Modelli di Base, hanno evidenziato l'importanza di dataset su larga scala, diversificati e riccamente annotati. Nonostante il loro ruolo cruciale, i dataset pubblicamente disponibili di Immagini di Interi Vetrini (WSI) spesso mancano di una scala sufficiente, diversità tissutale e metadati clinici completi, limitando la robustezza e la generalizzabilità dei modelli di IA. In risposta, presentiamo il dataset HISTAI, una vasta collezione open-access di WSI multimodale che comprende oltre 60.000 vetrini provenienti da vari tipi di tessuto. Ogni caso nel dataset HISTAI è accompagnato da estesi metadati clinici, inclusi diagnosi, informazioni demografiche, annotazioni patologiche dettagliate e codici diagnostici standardizzati. Il dataset mira a colmare le lacune identificate nelle risorse esistenti, promuovendo l'innovazione, la riproducibilità e lo sviluppo di soluzioni di patologia computazionale clinicamente rilevanti. Il dataset è accessibile all'indirizzo https://github.com/HistAI/HISTAI.
English
Recent advancements in Digital Pathology (DP), particularly through artificial intelligence and Foundation Models, have underscored the importance of large-scale, diverse, and richly annotated datasets. Despite their critical role, publicly available Whole Slide Image (WSI) datasets often lack sufficient scale, tissue diversity, and comprehensive clinical metadata, limiting the robustness and generalizability of AI models. In response, we introduce the HISTAI dataset, a large, multimodal, open-access WSI collection comprising over 60,000 slides from various tissue types. Each case in the HISTAI dataset is accompanied by extensive clinical metadata, including diagnosis, demographic information, detailed pathological annotations, and standardized diagnostic coding. The dataset aims to fill gaps identified in existing resources, promoting innovation, reproducibility, and the development of clinically relevant computational pathology solutions. The dataset can be accessed at https://github.com/HistAI/HISTAI.
PDF32May 20, 2025