MedDINOv3: Как адаптировать базовые модели компьютерного зрения для сегментации медицинских изображений?
MedDINOv3: How to adapt vision foundation models for medical image segmentation?
September 2, 2025
Авторы: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang
cs.AI
Аннотация
Точная сегментация органов и опухолей на КТ и МРТ снимках имеет решающее значение для диагностики, планирования лечения и мониторинга заболеваний. Хотя глубокое обучение продвинуло автоматизированную сегментацию, большинство моделей остаются узкоспециализированными, не обладая универсальностью для различных модальностей и учреждений. Фундаментальные модели (FMs) для обработки изображений, предобученные на миллиардах натуральных изображений, предлагают мощные и переносимые представления. Однако их адаптация к медицинской визуализации сталкивается с двумя основными проблемами: (1) архитектура ViT, используемая в большинстве фундаментальных моделей, по-прежнему уступает специализированным CNN в сегментации медицинских изображений, и (2) значительный разрыв между доменами натуральных и медицинских изображений ограничивает переносимость. Мы представляем MedDINOv3 — простой и эффективный фреймворк для адаптации DINOv3 к медицинской сегментации. Сначала мы пересматриваем базовые ViT и разрабатываем простую и эффективную архитектуру с многоуровневой агрегацией токенов. Затем мы выполняем доменно-адаптивное предобучение на CT-3M — тщательно отобранной коллекции из 3,87 миллионов аксиальных срезов КТ, используя многоэтапный рецепт DINOv3 для обучения устойчивым плотным признакам. MedDINOv3 достигает или превосходит современные результаты на четырех бенчмарках сегментации, демонстрируя потенциал фундаментальных моделей обработки изображений в качестве универсальных архитектур для сегментации медицинских изображений. Код доступен по адресу https://github.com/ricklisz/MedDINOv3.
English
Accurate segmentation of organs and tumors in CT and MRI scans is essential
for diagnosis, treatment planning, and disease monitoring. While deep learning
has advanced automated segmentation, most models remain task-specific, lacking
generalizability across modalities and institutions. Vision foundation models
(FMs) pretrained on billion-scale natural images offer powerful and
transferable representations. However, adapting them to medical imaging faces
two key challenges: (1) the ViT backbone of most foundation models still
underperform specialized CNNs on medical image segmentation, and (2) the large
domain gap between natural and medical images limits transferability. We
introduce MedDINOv3, a simple and effective framework for adapting
DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple
and effective architecture with multi-scale token aggregation. Then, we perform
domain-adaptive pretraining on CT-3M, a curated collection of 3.87M
axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense
features. MedDINOv3 matches or exceeds state-of-the-art performance across four
segmentation benchmarks, demonstrating the potential of vision foundation
models as unified backbones for medical image segmentation. The code is
available at https://github.com/ricklisz/MedDINOv3.