ChatPaper.aiChatPaper

HISTAI: Um Conjunto de Dados de Imagens de Lâminas Inteiras em Grande Escala e de Código Aberto para Patologia Computacional

HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

May 17, 2025
Autores: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

Resumo

Os recentes avanços em Patologia Digital (PD), particularmente por meio de inteligência artificial e Modelos de Base, destacaram a importância de conjuntos de dados em grande escala, diversos e ricamente anotados. Apesar de seu papel crítico, os conjuntos de dados publicamente disponíveis de Imagens de Lâmina Completa (ILC) frequentemente carecem de escala suficiente, diversidade de tecidos e metadados clínicos abrangentes, limitando a robustez e a generalização dos modelos de IA. Em resposta, apresentamos o conjunto de dados HISTAI, uma grande coleção multimodal e de acesso aberto de ILCs, composta por mais de 60.000 lâminas de diversos tipos de tecidos. Cada caso no conjunto de dados HISTAI é acompanhado por extensos metadados clínicos, incluindo diagnóstico, informações demográficas, anotações patológicas detalhadas e codificação diagnóstica padronizada. O conjunto de dados visa preencher as lacunas identificadas nos recursos existentes, promovendo inovação, reprodutibilidade e o desenvolvimento de soluções computacionais de patologia clinicamente relevantes. O conjunto de dados pode ser acessado em https://github.com/HistAI/HISTAI.
English
Recent advancements in Digital Pathology (DP), particularly through artificial intelligence and Foundation Models, have underscored the importance of large-scale, diverse, and richly annotated datasets. Despite their critical role, publicly available Whole Slide Image (WSI) datasets often lack sufficient scale, tissue diversity, and comprehensive clinical metadata, limiting the robustness and generalizability of AI models. In response, we introduce the HISTAI dataset, a large, multimodal, open-access WSI collection comprising over 60,000 slides from various tissue types. Each case in the HISTAI dataset is accompanied by extensive clinical metadata, including diagnosis, demographic information, detailed pathological annotations, and standardized diagnostic coding. The dataset aims to fill gaps identified in existing resources, promoting innovation, reproducibility, and the development of clinically relevant computational pathology solutions. The dataset can be accessed at https://github.com/HistAI/HISTAI.
PDF32May 20, 2025