ChatPaper.aiChatPaper

MedDINOv3: Come adattare i modelli di base per la visione alla segmentazione di immagini mediche?

MedDINOv3: How to adapt vision foundation models for medical image segmentation?

September 2, 2025
Autori: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang
cs.AI

Abstract

La segmentazione accurata di organi e tumori nelle scansioni TC e RM è essenziale per la diagnosi, la pianificazione del trattamento e il monitoraggio delle malattie. Sebbene il deep learning abbia fatto progredire la segmentazione automatizzata, la maggior parte dei modelli rimane specifica per un compito, mancando di generalizzabilità tra modalità e istituzioni. I modelli di base (FMs) per la visione, pre-addestrati su immagini naturali su scala miliardaria, offrono rappresentazioni potenti e trasferibili. Tuttavia, adattarli alle immagini mediche presenta due sfide principali: (1) il backbone ViT della maggior parte dei modelli di base continua a essere inferiore rispetto alle CNN specializzate nella segmentazione di immagini mediche, e (2) il grande divario di dominio tra immagini naturali e mediche limita la trasferibilità. Introduciamo MedDINOv3, un framework semplice ed efficace per adattare DINOv3 alla segmentazione medica. In primo luogo, rivisitiamo i ViT semplici e progettiamo un'architettura efficace con aggregazione di token multi-scala. Successivamente, eseguiamo un pre-addestramento adattivo al dominio su CT-3M, una raccolta curata di 3,87 milioni di sezioni assiali TC, utilizzando una ricetta multi-stadio di DINOv3 per apprendere caratteristiche dense robuste. MedDINOv3 eguaglia o supera le prestazioni all'avanguardia su quattro benchmark di segmentazione, dimostrando il potenziale dei modelli di base per la visione come backbone unificati per la segmentazione di immagini mediche. Il codice è disponibile all'indirizzo https://github.com/ricklisz/MedDINOv3.
English
Accurate segmentation of organs and tumors in CT and MRI scans is essential for diagnosis, treatment planning, and disease monitoring. While deep learning has advanced automated segmentation, most models remain task-specific, lacking generalizability across modalities and institutions. Vision foundation models (FMs) pretrained on billion-scale natural images offer powerful and transferable representations. However, adapting them to medical imaging faces two key challenges: (1) the ViT backbone of most foundation models still underperform specialized CNNs on medical image segmentation, and (2) the large domain gap between natural and medical images limits transferability. We introduce MedDINOv3, a simple and effective framework for adapting DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple and effective architecture with multi-scale token aggregation. Then, we perform domain-adaptive pretraining on CT-3M, a curated collection of 3.87M axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense features. MedDINOv3 matches or exceeds state-of-the-art performance across four segmentation benchmarks, demonstrating the potential of vision foundation models as unified backbones for medical image segmentation. The code is available at https://github.com/ricklisz/MedDINOv3.
PDF13September 3, 2025