MedSAMix: Uma Abordagem de Fusão de Modelos sem Treinamento para Segmentação de Imagens Médicas
MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation
August 14, 2025
Autores: Yanwu Yang, Guinan Su, Jiesi Hu, Francesco Sammarco, Jonas Geiping, Thomas Wolfers
cs.AI
Resumo
Modelos universais de segmentação de imagens médicas surgiram como um paradigma promissor devido à sua forte capacidade de generalização em diversas tarefas, mostrando grande potencial para uma ampla gama de aplicações clínicas. Esse potencial tem sido impulsionado, em parte, pelo sucesso de modelos de visão de propósito geral, como o Segment Anything Model (SAM), que inspirou o desenvolvimento de várias variantes ajustadas para tarefas de segmentação médica. No entanto, variantes ajustadas como o MedSAM são treinadas com dados de imagens médicas comparativamente limitados, que frequentemente sofrem com heterogeneidade, anotações escassas e desvios distribucionais. Esses desafios limitam sua capacidade de generalização em uma ampla variedade de tarefas de segmentação médica. Nesse contexto, propomos o MedSAMix, um método de fusão de modelos sem necessidade de treinamento que integra os pontos fortes de modelos generalistas (por exemplo, SAM) e especialistas (por exemplo, MedSAM) para segmentação de imagens médicas. Em contraste com abordagens tradicionais de fusão de modelos que dependem de configuração manual e frequentemente resultam em desempenho subótimo, propomos um método de otimização de ordem zero para descobrir automaticamente soluções ótimas de fusão camada por camada. Além disso, para aplicações clínicas, desenvolvemos dois regimes para atender à demanda de especificidade de domínio e generalização em diferentes cenários, por meio de otimização de tarefa única e otimização multiobjetivo, respectivamente. Avaliações extensas em 25 tarefas de segmentação médica demonstram que o MedSAMix mitiga efetivamente o viés do modelo e melhora consistentemente o desempenho tanto na precisão específica do domínio quanto na generalização, alcançando melhorias de 6,67% em tarefas especializadas e 4,37% em avaliações multitarefa.
English
Universal medical image segmentation models have emerged as a promising
paradigm due to their strong generalizability across diverse tasks, showing
great potential for a wide range of clinical applications. This potential has
been partly driven by the success of general-purpose vision models such as the
Segment Anything Model (SAM), which has inspired the development of various
fine-tuned variants for medical segmentation tasks. However, fine-tuned
variants like MedSAM are trained on comparatively limited medical imaging data
that often suffers from heterogeneity, scarce annotations, and distributional
shifts. These challenges limit their ability to generalize across a wide range
of medical segmentation tasks. In this regard, we propose MedSAMix, a
training-free model merging method that integrates the strengths of both
generalist models (e.g., SAM) and specialist models (e.g., MedSAM) for medical
image segmentation. In contrast to traditional model merging approaches that
rely on manual configuration and often result in suboptimal outcomes, we
propose a zero-order optimization method to automatically discover optimal
layer-wise merging solutions. Furthermore, for clinical applications, we
develop two regimes to meet the demand of domain-specificity and
generalizability in different scenarios by single-task optimization and
multi-objective optimization respectively. Extensive evaluations on 25 medical
segmentation tasks demonstrate that MedSAMix effectively mitigates model bias
and consistently improves performance in both domain-specific accuracy and
generalization, achieving improvements of 6.67% on specialized tasks and 4.37%
on multi-task evaluations.