MedDINOv3 : Comment adapter les modèles de base en vision pour la segmentation d'images médicales ?
MedDINOv3: How to adapt vision foundation models for medical image segmentation?
September 2, 2025
papers.authors: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang
cs.AI
papers.abstract
La segmentation précise des organes et des tumeurs dans les scanners CT et IRM est essentielle pour le diagnostic, la planification des traitements et le suivi des maladies. Bien que l'apprentissage profond ait fait progresser la segmentation automatisée, la plupart des modèles restent spécifiques à une tâche, manquant de généralisation entre les modalités et les institutions. Les modèles de base (FMs) de vision pré-entraînés sur des milliards d'images naturelles offrent des représentations puissantes et transférables. Cependant, leur adaptation à l'imagerie médicale rencontre deux défis majeurs : (1) l'architecture ViT de la plupart des modèles de base reste moins performante que les CNN spécialisés pour la segmentation d'images médicales, et (2) le grand écart de domaine entre les images naturelles et médicales limite la transférabilité. Nous présentons MedDINOv3, un cadre simple et efficace pour adapter DINOv3 à la segmentation médicale. Nous revisitons d'abord les ViT simples et concevons une architecture efficace avec une agrégation de tokens multi-échelle. Ensuite, nous effectuons un pré-entraînement adaptatif au domaine sur CT-3M, une collection organisée de 3,87 millions de coupes axiales CT, en utilisant une recette multi-étapes de DINOv3 pour apprendre des caractéristiques denses robustes. MedDINOv3 atteint ou dépasse les performances de pointe sur quatre benchmarks de segmentation, démontrant le potentiel des modèles de base de vision comme architectures unifiées pour la segmentation d'images médicales. Le code est disponible à l'adresse https://github.com/ricklisz/MedDINOv3.
English
Accurate segmentation of organs and tumors in CT and MRI scans is essential
for diagnosis, treatment planning, and disease monitoring. While deep learning
has advanced automated segmentation, most models remain task-specific, lacking
generalizability across modalities and institutions. Vision foundation models
(FMs) pretrained on billion-scale natural images offer powerful and
transferable representations. However, adapting them to medical imaging faces
two key challenges: (1) the ViT backbone of most foundation models still
underperform specialized CNNs on medical image segmentation, and (2) the large
domain gap between natural and medical images limits transferability. We
introduce MedDINOv3, a simple and effective framework for adapting
DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple
and effective architecture with multi-scale token aggregation. Then, we perform
domain-adaptive pretraining on CT-3M, a curated collection of 3.87M
axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense
features. MedDINOv3 matches or exceeds state-of-the-art performance across four
segmentation benchmarks, demonstrating the potential of vision foundation
models as unified backbones for medical image segmentation. The code is
available at https://github.com/ricklisz/MedDINOv3.