ChatPaper.aiChatPaper

HISTAI: Открытый набор данных крупномасштабных изображений целых срезов для вычислительной патологии

HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

May 17, 2025
Авторы: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

Аннотация

Последние достижения в области цифровой патологии (ЦП), особенно благодаря искусственному интеллекту и базовым моделям, подчеркнули важность крупномасштабных, разнообразных и богато аннотированных наборов данных. Несмотря на их критическую роль, общедоступные наборы данных, содержащие изображения целых срезов тканей (Whole Slide Images, WSI), часто недостаточно масштабны, не обладают достаточным разнообразием тканей и исчерпывающей клинической метаинформацией, что ограничивает устойчивость и обобщаемость моделей ИИ. В ответ на это мы представляем набор данных HISTAI — крупную, мультимодальную, открытую коллекцию WSI, включающую более 60 000 срезов различных типов тканей. Каждый случай в наборе данных HISTAI сопровождается обширной клинической метаинформацией, включающей диагноз, демографические данные, детальные патологические аннотации и стандартизированные диагностические коды. Набор данных призван восполнить пробелы, выявленные в существующих ресурсах, способствуя инновациям, воспроизводимости и разработке клинически значимых решений в области вычислительной патологии. Набор данных доступен по адресу: https://github.com/HistAI/HISTAI.
English
Recent advancements in Digital Pathology (DP), particularly through artificial intelligence and Foundation Models, have underscored the importance of large-scale, diverse, and richly annotated datasets. Despite their critical role, publicly available Whole Slide Image (WSI) datasets often lack sufficient scale, tissue diversity, and comprehensive clinical metadata, limiting the robustness and generalizability of AI models. In response, we introduce the HISTAI dataset, a large, multimodal, open-access WSI collection comprising over 60,000 slides from various tissue types. Each case in the HISTAI dataset is accompanied by extensive clinical metadata, including diagnosis, demographic information, detailed pathological annotations, and standardized diagnostic coding. The dataset aims to fill gaps identified in existing resources, promoting innovation, reproducibility, and the development of clinically relevant computational pathology solutions. The dataset can be accessed at https://github.com/HistAI/HISTAI.

Summary

AI-Generated Summary

PDF32May 20, 2025