프로젝트 이미징-X: 기초 모델 개발을 위한 1,000개 이상의 오픈 액세스 의료 영상 데이터셋 조사
Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development
March 29, 2026
저자: Zhongying Deng, Cheng Tang, Ziyan Huang, Jiashi Lin, Ying Chen, Junzhi Ning, Chenglong Ma, Jiyao Liu, Wei Li, Yinghao Zhu, Shujian Gao, Yanyan Huang, Sibo Ju, Yanzhou Su, Pengcheng Chen, Wenhao Tang, Tianbin Li, Haoyu Wang, Yuanfeng Ji, Hui Sun, Shaobo Min, Liang Peng, Feilong Tang, Haochen Xue, Rulin Zhou, Chaoyang Zhang, Wenjie Li, Shaohao Rui, Weijie Ma, Xingyue Zhao, Yibin Wang, Kun Yuan, Zhaohui Lu, Shujun Wang, Jinjie Wei, Lihao Liu, Dingkang Yang, Lin Wang, Yulong Li, Haolin Yang, Yiqing Shen, Lequan Yu, Xiaowei Hu, Yun Gu, Yicheng Wu, Benyou Wang, Minghui Zhang, Angelica I. Aviles-Rivero, Qi Gao, Hongming Shan, Xiaoyu Ren, Fang Yan, Hongyu Zhou, Haodong Duan, Maosong Cao, Shanshan Wang, Bin Fu, Xiaomeng Li, Zhi Hou, Chunfeng Song, Lei Bai, Yuan Cheng, Yuandong Pu, Xiang Li, Wenhai Wang, Hao Chen, Jiaxin Zhuang, Songyang Zhang, Huiguang He, Mengzhang Li, Bohan Zhuang, Zhian Bai, Rongshan Yu, Liansheng Wang, Yukun Zhou, Xiaosong Wang, Xin Guo, Guanbin Li, Xiangru Lin, Dakai Jin, Mianxin Liu, Wenlong Zhang, Qi Qin, Conghui He, Yuqiang Li, Ye Luo, Nanqing Dong, Jie Xu, Wenqi Shao, Bo Zhang, Qiujuan Yan, Yihao Liu, Jun Ma, Zhi Lu, Yuewen Cao, Zongwei Zhou, Jianming Liang, Shixiang Tang, Qi Duan, Dongzhan Zhou, Chen Jiang, Yuyin Zhou, Yanwu Xu, Jiancheng Yang, Shaoting Zhang, Xiaohong Liu, Siqi Luo, Yi Xin, Chaoyu Liu, Haochen Wen, Xin Chen, Alejandro Lozano, Min Woo Sun, Yuhui Zhang, Yue Yao, Xiaoxiao Sun, Serena Yeung-Levy, Xia Li, Jing Ke, Chunhui Zhang, Zongyuan Ge, Ming Hu, Jin Ye, Zhifeng Li, Yirong Chen, Yu Qiao, Junjun He
cs.AI
초록
파운데이션 모델은 대규모, 다양성, 고품질 데이터셋의 확산으로 인해 다양한 분야와 작업에서 놀라운 성공을 보여주고 있습니다. 그러나 의료 영상 분야에서는 임상 전문성에 대한 의존도와 엄격한 윤리 및 개인정보 보호 제약으로 인해 이러한 의료 데이터셋의 선별 및 구축이 매우 어려워, 대규모 통합 의료 데이터셋이 부족하고 강력한 의료 파운데이션 모델 개발이 지연되고 있습니다. 본 연구에서는 양식, 작업, 해부학적 부위, 주석, 한계, 통합 가능성 등을 체계적으로 분류한 카탈로그와 함께 1,000개 이상의 공개 접근 데이터셋을 아우르는 역대 최대 규모의 의료 영상 데이터셋 현황 조사를 제시합니다. 우리의 분석은 기존 의료 영상 데이터셋의 규모가 제한적이고, 작업 범위가 협소하게 분화되어 있으며, 장기 및 양식별로 불균등하게 분포되어 있어, 다재다능하고 강력한 의료 파운데이션 모델 개발에 기존 데이터셋의 유용성이 제한된다는 현실을 드러냅니다. 이러한 분열을 규모로 전환하기 위해 우리는 공유된 양식이나 작업을 가진 공공 데이터셋을 통합하는 메타데이터 기반 융합 패러다임(MDFP)을 제안하여 여러 개의 소규모 데이터 저장소를 더 크고 일관된 자원으로 변환합니다. MDFP를 기반으로 우리는 종단간 자동화된 의료 영상 데이터셋 통합을 가능하게 하는 인터랙티브 발견 포털을 공개하고, 조사된 모든 데이터셋을 주요 특성을 명확히 요약하고 참조 링크를 제공하는 통합 구조 테이블로 편성하여 커뮤니티에 접근성 높은 포괄적 저장소를 제공합니다. 현재 지형을 파악하고 데이터셋 통합을 위한 원칙적인 경로를 제시함으로써, 본 조사는 의료 영상 코퍼스 확장을 위한 실용적인 로드맵을 제공하며, 더 빠른 데이터 발견, 더 체계적인 데이터셋 생성, 더 우수한 의료 파운데이션 모델 개발을 지원합니다.
English
Foundation models have demonstrated remarkable success across diverse domains and tasks, primarily due to the thrive of large-scale, diverse, and high-quality datasets. However, in the field of medical imaging, the curation and assembling of such medical datasets are highly challenging due to the reliance on clinical expertise and strict ethical and privacy constraints, resulting in a scarcity of large-scale unified medical datasets and hindering the development of powerful medical foundation models. In this work, we present the largest survey to date of medical image datasets, covering over 1,000 open-access datasets with a systematic catalog of their modalities, tasks, anatomies, annotations, limitations, and potential for integration. Our analysis exposes a landscape that is modest in scale, fragmented across narrowly scoped tasks, and unevenly distributed across organs and modalities, which in turn limits the utility of existing medical image datasets for developing versatile and robust medical foundation models. To turn fragmentation into scale, we propose a metadata-driven fusion paradigm (MDFP) that integrates public datasets with shared modalities or tasks, thereby transforming multiple small data silos into larger, more coherent resources. Building on MDFP, we release an interactive discovery portal that enables end-to-end, automated medical image dataset integration, and compile all surveyed datasets into a unified, structured table that clearly summarizes their key characteristics and provides reference links, offering the community an accessible and comprehensive repository. By charting the current terrain and offering a principled path to dataset consolidation, our survey provides a practical roadmap for scaling medical imaging corpora, supporting faster data discovery, more principled dataset creation, and more capable medical foundation models.