ChatPaper.aiChatPaper

HISTAI : Un ensemble de données open-source à grande échelle d'images de lames entières pour la pathologie computationnelle

HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

May 17, 2025
Auteurs: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI

Résumé

Les récentes avancées en Pathologie Numérique (PN), notamment grâce à l'intelligence artificielle et aux Modèles Fondamentaux, ont mis en lumière l'importance de jeux de données à grande échelle, diversifiés et richement annotés. Malgré leur rôle crucial, les ensembles de données publiques d'Images de Lames Entières (WSI) manquent souvent d'échelle suffisante, de diversité tissulaire et de métadonnées cliniques complètes, limitant ainsi la robustesse et la généralisabilité des modèles d'IA. En réponse, nous présentons le jeu de données HISTAI, une collection WSI multimodale et en libre accès comprenant plus de 60 000 lames provenant de divers types de tissus. Chaque cas du jeu de données HISTAI est accompagné de métadonnées cliniques détaillées, incluant le diagnostic, des informations démographiques, des annotations pathologiques approfondies et des codes de diagnostic standardisés. Ce jeu de données vise à combler les lacunes identifiées dans les ressources existantes, en favorisant l'innovation, la reproductibilité et le développement de solutions de pathologie computationnelle pertinentes sur le plan clinique. Le jeu de données peut être consulté à l'adresse suivante : https://github.com/HistAI/HISTAI.
English
Recent advancements in Digital Pathology (DP), particularly through artificial intelligence and Foundation Models, have underscored the importance of large-scale, diverse, and richly annotated datasets. Despite their critical role, publicly available Whole Slide Image (WSI) datasets often lack sufficient scale, tissue diversity, and comprehensive clinical metadata, limiting the robustness and generalizability of AI models. In response, we introduce the HISTAI dataset, a large, multimodal, open-access WSI collection comprising over 60,000 slides from various tissue types. Each case in the HISTAI dataset is accompanied by extensive clinical metadata, including diagnosis, demographic information, detailed pathological annotations, and standardized diagnostic coding. The dataset aims to fill gaps identified in existing resources, promoting innovation, reproducibility, and the development of clinically relevant computational pathology solutions. The dataset can be accessed at https://github.com/HistAI/HISTAI.

Summary

AI-Generated Summary

PDF32May 20, 2025