ChatPaper.aiChatPaper

HISTAI: Un conjunto de datos de código abierto a gran escala de imágenes de portaobjetos completos para patología computacional

HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

May 17, 2025
Autores: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

Resumen

Los recientes avances en Patología Digital (PD), particularmente a través de la inteligencia artificial y los Modelos Fundacionales, han destacado la importancia de conjuntos de datos a gran escala, diversos y ricamente anotados. A pesar de su papel crítico, los conjuntos de datos de Imágenes de Lámina Completa (WSI) disponibles públicamente a menudo carecen de la escala suficiente, diversidad de tejidos y metadatos clínicos exhaustivos, lo que limita la robustez y generalización de los modelos de IA. En respuesta, presentamos el conjunto de datos HISTAI, una colección grande, multimodal y de acceso abierto de WSI que comprende más de 60,000 láminas de diversos tipos de tejidos. Cada caso en el conjunto de datos HISTAI está acompañado de metadatos clínicos extensos, incluyendo diagnóstico, información demográfica, anotaciones patológicas detalladas y códigos de diagnóstico estandarizados. El conjunto de datos busca llenar los vacíos identificados en los recursos existentes, promoviendo la innovación, la reproducibilidad y el desarrollo de soluciones de patología computacional clínicamente relevantes. El conjunto de datos puede ser accedido en https://github.com/HistAI/HISTAI.
English
Recent advancements in Digital Pathology (DP), particularly through artificial intelligence and Foundation Models, have underscored the importance of large-scale, diverse, and richly annotated datasets. Despite their critical role, publicly available Whole Slide Image (WSI) datasets often lack sufficient scale, tissue diversity, and comprehensive clinical metadata, limiting the robustness and generalizability of AI models. In response, we introduce the HISTAI dataset, a large, multimodal, open-access WSI collection comprising over 60,000 slides from various tissue types. Each case in the HISTAI dataset is accompanied by extensive clinical metadata, including diagnosis, demographic information, detailed pathological annotations, and standardized diagnostic coding. The dataset aims to fill gaps identified in existing resources, promoting innovation, reproducibility, and the development of clinically relevant computational pathology solutions. The dataset can be accessed at https://github.com/HistAI/HISTAI.

Summary

AI-Generated Summary

PDF32May 20, 2025