ChatPaper.aiChatPaper

HISTAI: Ein Open-Source-Datensatz für großformatige Whole-Slide-Bilder in der computergestützten Pathologie

HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

May 17, 2025
Autoren: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

Zusammenfassung

Jüngste Fortschritte in der digitalen Pathologie (DP), insbesondere durch künstliche Intelligenz und Foundation Models, haben die Bedeutung von groß angelegten, diversen und umfangreich annotierten Datensätzen hervorgehoben. Trotz ihrer entscheidenden Rolle mangelt es öffentlich verfügbaren Whole Slide Image (WSI)-Datensätzen oft an ausreichendem Umfang, Gewebevielfalt und umfassenden klinischen Metadaten, was die Robustheit und Generalisierbarkeit von KI-Modellen einschränkt. Als Antwort darauf stellen wir den HISTAI-Datensatz vor, eine große, multimodale, frei zugängliche WSI-Sammlung, die über 60.000 Aufnahmen verschiedener Gewebetypen umfasst. Jeder Fall im HISTAI-Datensatz wird durch umfangreiche klinische Metadaten ergänzt, darunter Diagnose, demografische Informationen, detaillierte pathologische Anmerkungen und standardisierte Diagnosecodierungen. Der Datensatz zielt darauf ab, Lücken in bestehenden Ressourcen zu schließen und Innovation, Reproduzierbarkeit sowie die Entwicklung klinisch relevanter computergestützter Pathologielösungen zu fördern. Der Datensatz kann unter https://github.com/HistAI/HISTAI abgerufen werden.
English
Recent advancements in Digital Pathology (DP), particularly through artificial intelligence and Foundation Models, have underscored the importance of large-scale, diverse, and richly annotated datasets. Despite their critical role, publicly available Whole Slide Image (WSI) datasets often lack sufficient scale, tissue diversity, and comprehensive clinical metadata, limiting the robustness and generalizability of AI models. In response, we introduce the HISTAI dataset, a large, multimodal, open-access WSI collection comprising over 60,000 slides from various tissue types. Each case in the HISTAI dataset is accompanied by extensive clinical metadata, including diagnosis, demographic information, detailed pathological annotations, and standardized diagnostic coding. The dataset aims to fill gaps identified in existing resources, promoting innovation, reproducibility, and the development of clinically relevant computational pathology solutions. The dataset can be accessed at https://github.com/HistAI/HISTAI.

Summary

AI-Generated Summary

PDF32May 20, 2025