ChatPaper.aiChatPaper

MedDINOv3: Hoe vision foundation models aan te passen voor medische beeldsegmentatie?

MedDINOv3: How to adapt vision foundation models for medical image segmentation?

September 2, 2025
Auteurs: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang
cs.AI

Samenvatting

Nauwkeurige segmentatie van organen en tumoren in CT- en MRI-scans is essentieel voor diagnose, behandelplanning en ziektebewaking. Hoewel deep learning geautomatiseerde segmentatie heeft verbeterd, blijven de meeste modellen taakspecifiek en missen ze generaliseerbaarheid over modaliteiten en instellingen. Vision foundation models (FMs) die vooraf zijn getraind op miljardenschalige natuurlijke afbeeldingen, bieden krachtige en overdraagbare representaties. Het aanpassen ervan aan medische beeldvorming kent echter twee belangrijke uitdagingen: (1) de ViT-backbone van de meeste foundation models presteert nog steeds minder goed dan gespecialiseerde CNN's bij medische beeldsegmentatie, en (2) de grote domeinkloof tussen natuurlijke en medische afbeeldingen beperkt de overdraagbaarheid. Wij introduceren MedDINOv3, een eenvoudig en effectief raamwerk voor het aanpassen van DINOv3 aan medische segmentatie. We herzien eerst plain ViTs en ontwerpen een eenvoudige en effectieve architectuur met multi-schaal tokenaggregatie. Vervolgens voeren we domeinadaptieve voorafgaande training uit op CT-3M, een gecureerde verzameling van 3,87 miljoen axiale CT-slices, met behulp van een meerfasig DINOv3-recept om robuuste dense features te leren. MedDINOv3 evenaart of overtreft state-of-the-art prestaties op vier segmentatiebenchmarks, wat het potentieel van vision foundation models als verenigde backbones voor medische beeldsegmentatie aantoont. De code is beschikbaar op https://github.com/ricklisz/MedDINOv3.
English
Accurate segmentation of organs and tumors in CT and MRI scans is essential for diagnosis, treatment planning, and disease monitoring. While deep learning has advanced automated segmentation, most models remain task-specific, lacking generalizability across modalities and institutions. Vision foundation models (FMs) pretrained on billion-scale natural images offer powerful and transferable representations. However, adapting them to medical imaging faces two key challenges: (1) the ViT backbone of most foundation models still underperform specialized CNNs on medical image segmentation, and (2) the large domain gap between natural and medical images limits transferability. We introduce MedDINOv3, a simple and effective framework for adapting DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple and effective architecture with multi-scale token aggregation. Then, we perform domain-adaptive pretraining on CT-3M, a curated collection of 3.87M axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense features. MedDINOv3 matches or exceeds state-of-the-art performance across four segmentation benchmarks, demonstrating the potential of vision foundation models as unified backbones for medical image segmentation. The code is available at https://github.com/ricklisz/MedDINOv3.
PDF13September 3, 2025