MedDINOv3: Wie lassen sich Vision-Foundation-Modelle für die Segmentierung medizinischer Bilder anpassen?
MedDINOv3: How to adapt vision foundation models for medical image segmentation?
September 2, 2025
papers.authors: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang
cs.AI
papers.abstract
Eine präzise Segmentierung von Organen und Tumoren in CT- und MRT-Aufnahmen ist entscheidend für die Diagnose, Behandlungsplanung und Krankheitsüberwachung. Während Deep Learning die automatisierte Segmentierung vorangetrieben hat, bleiben die meisten Modelle aufgabenspezifisch und weisen eine mangelnde Generalisierbarkeit über Modalitäten und Institutionen hinweg auf. Vision Foundation Models (FMs), die auf Milliarden von natürlichen Bildern vortrainiert wurden, bieten leistungsstarke und übertragbare Repräsentationen. Die Anpassung dieser Modelle an die medizinische Bildgebung steht jedoch vor zwei zentralen Herausforderungen: (1) Das ViT-Backbone der meisten Foundation Models schneidet bei der Segmentierung medizinischer Bilder immer noch schlechter ab als spezialisierte CNNs, und (2) die große Domänenlücke zwischen natürlichen und medizinischen Bildern begrenzt die Übertragbarkeit. Wir stellen MedDINOv3 vor, ein einfaches und effektives Framework zur Anpassung von DINOv3 an die medizinische Segmentierung. Zunächst untersuchen wir einfache ViTs und entwerfen eine effektive Architektur mit mehrstufiger Token-Aggregation. Anschließend führen wir ein domänenadaptives Vortraining auf CT-3M durch, einer kuratierten Sammlung von 3,87 Millionen axialen CT-Schnitten, unter Verwendung eines mehrstufigen DINOv3-Rezepts, um robuste dichte Merkmale zu erlernen. MedDINOv3 erreicht oder übertrifft die state-of-the-art Leistung über vier Segmentierungs-Benchmarks hinweg und demonstriert das Potenzial von Vision Foundation Models als einheitliche Backbones für die medizinische Bildsegmentierung. Der Code ist unter https://github.com/ricklisz/MedDINOv3 verfügbar.
English
Accurate segmentation of organs and tumors in CT and MRI scans is essential
for diagnosis, treatment planning, and disease monitoring. While deep learning
has advanced automated segmentation, most models remain task-specific, lacking
generalizability across modalities and institutions. Vision foundation models
(FMs) pretrained on billion-scale natural images offer powerful and
transferable representations. However, adapting them to medical imaging faces
two key challenges: (1) the ViT backbone of most foundation models still
underperform specialized CNNs on medical image segmentation, and (2) the large
domain gap between natural and medical images limits transferability. We
introduce MedDINOv3, a simple and effective framework for adapting
DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple
and effective architecture with multi-scale token aggregation. Then, we perform
domain-adaptive pretraining on CT-3M, a curated collection of 3.87M
axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense
features. MedDINOv3 matches or exceeds state-of-the-art performance across four
segmentation benchmarks, demonstrating the potential of vision foundation
models as unified backbones for medical image segmentation. The code is
available at https://github.com/ricklisz/MedDINOv3.