ChatPaper.aiChatPaper

MedDINOv3: ¿Cómo adaptar modelos fundamentales de visión para la segmentación de imágenes médicas?

MedDINOv3: How to adapt vision foundation models for medical image segmentation?

September 2, 2025
Autores: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang
cs.AI

Resumen

La segmentación precisa de órganos y tumores en tomografías computarizadas (CT) y resonancias magnéticas (MRI) es fundamental para el diagnóstico, la planificación del tratamiento y el monitoreo de enfermedades. Si bien el aprendizaje profundo ha avanzado en la segmentación automatizada, la mayoría de los modelos siguen siendo específicos para tareas, careciendo de generalización entre modalidades e instituciones. Los modelos fundacionales de visión (FMs), preentrenados en miles de millones de imágenes naturales, ofrecen representaciones potentes y transferibles. Sin embargo, su adaptación a imágenes médicas enfrenta dos desafíos clave: (1) la arquitectura ViT de la mayoría de los modelos fundacionales aún tiene un rendimiento inferior al de las CNN especializadas en segmentación de imágenes médicas, y (2) la gran brecha de dominio entre imágenes naturales y médicas limita la transferibilidad. Presentamos MedDINOv3, un marco simple y efectivo para adaptar DINOv3 a la segmentación médica. Primero, revisamos las ViT básicas y diseñamos una arquitectura simple y efectiva con agregación de tokens multiescala. Luego, realizamos un preentrenamiento adaptativo al dominio en CT-3M, una colección curada de 3.87 millones de cortes axiales de CT, utilizando una receta multietapa de DINOv3 para aprender características densas robustas. MedDINOv3 iguala o supera el rendimiento de vanguardia en cuatro benchmarks de segmentación, demostrando el potencial de los modelos fundacionales de visión como arquitecturas unificadas para la segmentación de imágenes médicas. El código está disponible en https://github.com/ricklisz/MedDINOv3.
English
Accurate segmentation of organs and tumors in CT and MRI scans is essential for diagnosis, treatment planning, and disease monitoring. While deep learning has advanced automated segmentation, most models remain task-specific, lacking generalizability across modalities and institutions. Vision foundation models (FMs) pretrained on billion-scale natural images offer powerful and transferable representations. However, adapting them to medical imaging faces two key challenges: (1) the ViT backbone of most foundation models still underperform specialized CNNs on medical image segmentation, and (2) the large domain gap between natural and medical images limits transferability. We introduce MedDINOv3, a simple and effective framework for adapting DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple and effective architecture with multi-scale token aggregation. Then, we perform domain-adaptive pretraining on CT-3M, a curated collection of 3.87M axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense features. MedDINOv3 matches or exceeds state-of-the-art performance across four segmentation benchmarks, demonstrating the potential of vision foundation models as unified backbones for medical image segmentation. The code is available at https://github.com/ricklisz/MedDINOv3.
PDF21September 3, 2025