ChatPaper.aiChatPaper

Projet Imaging-X : Recensement de plus de 1000 ensembles de données d'imagerie médicale en libre accès pour le développement de modèles fondateurs

Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

March 29, 2026
Auteurs: Zhongying Deng, Cheng Tang, Ziyan Huang, Jiashi Lin, Ying Chen, Junzhi Ning, Chenglong Ma, Jiyao Liu, Wei Li, Yinghao Zhu, Shujian Gao, Yanyan Huang, Sibo Ju, Yanzhou Su, Pengcheng Chen, Wenhao Tang, Tianbin Li, Haoyu Wang, Yuanfeng Ji, Hui Sun, Shaobo Min, Liang Peng, Feilong Tang, Haochen Xue, Rulin Zhou, Chaoyang Zhang, Wenjie Li, Shaohao Rui, Weijie Ma, Xingyue Zhao, Yibin Wang, Kun Yuan, Zhaohui Lu, Shujun Wang, Jinjie Wei, Lihao Liu, Dingkang Yang, Lin Wang, Yulong Li, Haolin Yang, Yiqing Shen, Lequan Yu, Xiaowei Hu, Yun Gu, Yicheng Wu, Benyou Wang, Minghui Zhang, Angelica I. Aviles-Rivero, Qi Gao, Hongming Shan, Xiaoyu Ren, Fang Yan, Hongyu Zhou, Haodong Duan, Maosong Cao, Shanshan Wang, Bin Fu, Xiaomeng Li, Zhi Hou, Chunfeng Song, Lei Bai, Yuan Cheng, Yuandong Pu, Xiang Li, Wenhai Wang, Hao Chen, Jiaxin Zhuang, Songyang Zhang, Huiguang He, Mengzhang Li, Bohan Zhuang, Zhian Bai, Rongshan Yu, Liansheng Wang, Yukun Zhou, Xiaosong Wang, Xin Guo, Guanbin Li, Xiangru Lin, Dakai Jin, Mianxin Liu, Wenlong Zhang, Qi Qin, Conghui He, Yuqiang Li, Ye Luo, Nanqing Dong, Jie Xu, Wenqi Shao, Bo Zhang, Qiujuan Yan, Yihao Liu, Jun Ma, Zhi Lu, Yuewen Cao, Zongwei Zhou, Jianming Liang, Shixiang Tang, Qi Duan, Dongzhan Zhou, Chen Jiang, Yuyin Zhou, Yanwu Xu, Jiancheng Yang, Shaoting Zhang, Xiaohong Liu, Siqi Luo, Yi Xin, Chaoyu Liu, Haochen Wen, Xin Chen, Alejandro Lozano, Min Woo Sun, Yuhui Zhang, Yue Yao, Xiaoxiao Sun, Serena Yeung-Levy, Xia Li, Jing Ke, Chunhui Zhang, Zongyuan Ge, Ming Hu, Jin Ye, Zhifeng Li, Yirong Chen, Yu Qiao, Junjun He
cs.AI

Résumé

Les modèles de fondation ont démontré un succès remarquable dans divers domaines et tâches, principalement grâce à l'essor de jeux de données à grande échelle, diversifiés et de haute qualité. Cependant, dans le domaine de l'imagerie médicale, la curation et l'assemblage de tels jeux de données médicaux sont extrêmement difficiles en raison de la dépendance à l'expertise clinique et des contraintes éthiques et de confidentialité strictes, ce qui entraîne une pénurie de jeux de données médicaux unifiés à grande échelle et entrave le développement de modèles de fondation médicaux puissants. Dans ce travail, nous présentons la plus grande étude à ce jour sur les jeux de données d'imagerie médicale, couvrant plus de 1 000 jeux de données en libre accès avec un catalogue systématique de leurs modalités, tâches, anatomies, annotations, limitations et potentiel d'intégration. Notre analyse révèle un paysage modeste en termes d'échelle, fragmenté à travers des tâches à la portée étroite et inégalement réparti entre les organes et les modalités, ce qui limite à son tour l'utilité des jeux de données d'imagerie médicale existants pour développer des modèles de fondation médicaux polyvalents et robustes. Pour transformer la fragmentation en échelle, nous proposons un paradigme de fusion piloté par les métadonnées (MDFP) qui intègre les jeux de données publics avec des modalités ou des tâches partagées, transformant ainsi de multiples silos de données de petite taille en ressources plus vastes et plus cohérentes. Sur la base du MDFP, nous publions un portail de découverte interactif qui permet une intégration automatisée et de bout en bout des jeux de données d'imagerie médicale, et nous compilons tous les jeux de données étudiés dans un tableau unifié et structuré qui résume clairement leurs caractéristiques clés et fournit des liens de référence, offrant à la communauté un référentiel accessible et complet. En cartographiant le terrain actuel et en offrant une voie raisonnée pour la consolidation des jeux de données, notre étude fournit une feuille de route pratique pour mettre à l'échelle les corpus d'imagerie médicale, soutenant une découverte plus rapide des données, une création de jeux de données plus raisonnée et des modèles de fondation médicaux plus performants.
English
Foundation models have demonstrated remarkable success across diverse domains and tasks, primarily due to the thrive of large-scale, diverse, and high-quality datasets. However, in the field of medical imaging, the curation and assembling of such medical datasets are highly challenging due to the reliance on clinical expertise and strict ethical and privacy constraints, resulting in a scarcity of large-scale unified medical datasets and hindering the development of powerful medical foundation models. In this work, we present the largest survey to date of medical image datasets, covering over 1,000 open-access datasets with a systematic catalog of their modalities, tasks, anatomies, annotations, limitations, and potential for integration. Our analysis exposes a landscape that is modest in scale, fragmented across narrowly scoped tasks, and unevenly distributed across organs and modalities, which in turn limits the utility of existing medical image datasets for developing versatile and robust medical foundation models. To turn fragmentation into scale, we propose a metadata-driven fusion paradigm (MDFP) that integrates public datasets with shared modalities or tasks, thereby transforming multiple small data silos into larger, more coherent resources. Building on MDFP, we release an interactive discovery portal that enables end-to-end, automated medical image dataset integration, and compile all surveyed datasets into a unified, structured table that clearly summarizes their key characteristics and provides reference links, offering the community an accessible and comprehensive repository. By charting the current terrain and offering a principled path to dataset consolidation, our survey provides a practical roadmap for scaling medical imaging corpora, supporting faster data discovery, more principled dataset creation, and more capable medical foundation models.
PDF461April 2, 2026