ChatPaper.aiChatPaper

MedDINOv3: Como adaptar modelos de base de visão para segmentação de imagens médicas?

MedDINOv3: How to adapt vision foundation models for medical image segmentation?

September 2, 2025
Autores: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang
cs.AI

Resumo

A segmentação precisa de órgãos e tumores em exames de TC e ressonância magnética é essencial para diagnóstico, planejamento de tratamento e monitoramento de doenças. Embora o aprendizado profundo tenha avançado a segmentação automatizada, a maioria dos modelos permanece específica para tarefas, carecendo de generalização entre modalidades e instituições. Modelos de base de visão (FMs) pré-treinados em bilhões de imagens naturais oferecem representações poderosas e transferíveis. No entanto, adaptá-los à imagem médica enfrenta dois desafios principais: (1) o backbone ViT da maioria dos modelos de base ainda tem desempenho inferior a CNNs especializadas na segmentação de imagens médicas, e (2) a grande diferença de domínio entre imagens naturais e médicas limita a transferibilidade. Apresentamos o MedDINOv3, uma estrutura simples e eficaz para adaptar o DINOv3 à segmentação médica. Primeiro, revisitamos ViTs simples e projetamos uma arquitetura eficaz com agregação de tokens em múltiplas escalas. Em seguida, realizamos pré-treinamento adaptativo ao domínio no CT-3M, uma coleção curada de 3,87 milhões de cortes axiais de TC, usando uma receita multiestágio do DINOv3 para aprender características densas robustas. O MedDINOv3 iguala ou supera o desempenho de ponta em quatro benchmarks de segmentação, demonstrando o potencial dos modelos de base de visão como backbones unificados para segmentação de imagens médicas. O código está disponível em https://github.com/ricklisz/MedDINOv3.
English
Accurate segmentation of organs and tumors in CT and MRI scans is essential for diagnosis, treatment planning, and disease monitoring. While deep learning has advanced automated segmentation, most models remain task-specific, lacking generalizability across modalities and institutions. Vision foundation models (FMs) pretrained on billion-scale natural images offer powerful and transferable representations. However, adapting them to medical imaging faces two key challenges: (1) the ViT backbone of most foundation models still underperform specialized CNNs on medical image segmentation, and (2) the large domain gap between natural and medical images limits transferability. We introduce MedDINOv3, a simple and effective framework for adapting DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple and effective architecture with multi-scale token aggregation. Then, we perform domain-adaptive pretraining on CT-3M, a curated collection of 3.87M axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense features. MedDINOv3 matches or exceeds state-of-the-art performance across four segmentation benchmarks, demonstrating the potential of vision foundation models as unified backbones for medical image segmentation. The code is available at https://github.com/ricklisz/MedDINOv3.
PDF21September 3, 2025