ChatPaper.aiChatPaper

MedDINOv3: 의료 영상 분할을 위한 시각 기반 모델 적응 방법

MedDINOv3: How to adapt vision foundation models for medical image segmentation?

September 2, 2025
저자: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang
cs.AI

초록

CT 및 MRI 스캔에서 장기와 종양의 정확한 분할은 진단, 치료 계획 수립, 질병 모니터링에 필수적입니다. 딥러닝이 자동 분할 기술을 발전시켰지만, 대부분의 모델은 특정 작업에 한정되어 있어 다양한 모달리티와 기관 간 일반화 능력이 부족합니다. 자연 이미지 수십억 장으로 사전 학습된 비전 파운데이션 모델(FMs)은 강력하고 전이 가능한 표현을 제공합니다. 그러나 이를 의료 영상에 적용하는 데는 두 가지 주요 과제가 있습니다: (1) 대부분의 파운데이션 모델의 ViT 백본은 여전히 의료 영상 분할에서 특화된 CNN보다 성능이 떨어지며, (2) 자연 이미지와 의료 영상 간의 큰 도메인 차이가 전이 가능성을 제한합니다. 우리는 DINOv3를 의료 분할에 적용하기 위한 간단하면서도 효과적인 프레임워크인 MedDINOv3를 소개합니다. 먼저 일반적인 ViT를 재검토하고, 다중 스케일 토큰 집계를 포함한 간단하지만 효과적인 아키텍처를 설계합니다. 그런 다음, 387만 개의 축상 CT 슬라이스로 구성된 CT-3M 데이터셋에서 도메인 적응형 사전 학습을 수행하여, 다단계 DINOv3 레시피를 사용해 강력한 밀집 특징을 학습합니다. MedDINOv3는 네 가지 분할 벤치마크에서 최첨단 성능을 달성하거나 이를 능가하며, 비전 파운데이션 모델이 의료 영상 분할을 위한 통합 백본으로서의 잠재력을 입증합니다. 코드는 https://github.com/ricklisz/MedDINOv3에서 확인할 수 있습니다.
English
Accurate segmentation of organs and tumors in CT and MRI scans is essential for diagnosis, treatment planning, and disease monitoring. While deep learning has advanced automated segmentation, most models remain task-specific, lacking generalizability across modalities and institutions. Vision foundation models (FMs) pretrained on billion-scale natural images offer powerful and transferable representations. However, adapting them to medical imaging faces two key challenges: (1) the ViT backbone of most foundation models still underperform specialized CNNs on medical image segmentation, and (2) the large domain gap between natural and medical images limits transferability. We introduce MedDINOv3, a simple and effective framework for adapting DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple and effective architecture with multi-scale token aggregation. Then, we perform domain-adaptive pretraining on CT-3M, a curated collection of 3.87M axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense features. MedDINOv3 matches or exceeds state-of-the-art performance across four segmentation benchmarks, demonstrating the potential of vision foundation models as unified backbones for medical image segmentation. The code is available at https://github.com/ricklisz/MedDINOv3.
PDF21September 3, 2025