MedDINOv3: Wie lassen sich Vision-Foundation-Modelle für die Segmentierung medizinischer Bilder anpassen?

papers.abstract

Eine präzise Segmentierung von Organen und Tumoren in CT- und MRT-Aufnahmen ist entscheidend für die Diagnose, Behandlungsplanung und Krankheitsüberwachung. Während Deep Learning die automatisierte Segmentierung vorangetrieben hat, bleiben die meisten Modelle aufgabenspezifisch und weisen eine mangelnde Generalisierbarkeit über Modalitäten und Institutionen hinweg auf. Vision Foundation Models (FMs), die auf Milliarden von natürlichen Bildern vortrainiert wurden, bieten leistungsstarke und übertragbare Repräsentationen. Die Anpassung dieser Modelle an die medizinische Bildgebung steht jedoch vor zwei zentralen Herausforderungen: (1) Das ViT-Backbone der meisten Foundation Models schneidet bei der Segmentierung medizinischer Bilder immer noch schlechter ab als spezialisierte CNNs, und (2) die große Domänenlücke zwischen natürlichen und medizinischen Bildern begrenzt die Übertragbarkeit. Wir stellen MedDINOv3 vor, ein einfaches und effektives Framework zur Anpassung von DINOv3 an die medizinische Segmentierung. Zunächst untersuchen wir einfache ViTs und entwerfen eine effektive Architektur mit mehrstufiger Token-Aggregation. Anschließend führen wir ein domänenadaptives Vortraining auf CT-3M durch, einer kuratierten Sammlung von 3,87 Millionen axialen CT-Schnitten, unter Verwendung eines mehrstufigen DINOv3-Rezepts, um robuste dichte Merkmale zu erlernen. MedDINOv3 erreicht oder übertrifft die state-of-the-art Leistung über vier Segmentierungs-Benchmarks hinweg und demonstriert das Potenzial von Vision Foundation Models als einheitliche Backbones für die medizinische Bildsegmentierung. Der Code ist unter https://github.com/ricklisz/MedDINOv3 verfügbar.

English

Accurate segmentation of organs and tumors in CT and MRI scans is essential for diagnosis, treatment planning, and disease monitoring. While deep learning has advanced automated segmentation, most models remain task-specific, lacking generalizability across modalities and institutions. Vision foundation models (FMs) pretrained on billion-scale natural images offer powerful and transferable representations. However, adapting them to medical imaging faces two key challenges: (1) the ViT backbone of most foundation models still underperform specialized CNNs on medical image segmentation, and (2) the large domain gap between natural and medical images limits transferability. We introduce MedDINOv3, a simple and effective framework for adapting DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple and effective architecture with multi-scale token aggregation. Then, we perform domain-adaptive pretraining on CT-3M, a curated collection of 3.87M axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense features. MedDINOv3 matches or exceeds state-of-the-art performance across four segmentation benchmarks, demonstrating the potential of vision foundation models as unified backbones for medical image segmentation. The code is available at https://github.com/ricklisz/MedDINOv3.

MedDINOv3: Wie lassen sich Vision-Foundation-Modelle für die Segmentierung medizinischer Bilder anpassen?

MedDINOv3: How to adapt vision foundation models for medical image segmentation?

papers.abstract

Support