MedSAMix: Подход к слиянию моделей без обучения для сегментации медицинских изображений

Аннотация

Универсальные модели для сегментации медицинских изображений стали перспективной парадигмой благодаря их высокой способности к обобщению в разнообразных задачах, демонстрируя значительный потенциал для широкого спектра клинических применений. Этот потенциал частично обусловлен успехом универсальных моделей компьютерного зрения, таких как Segment Anything Model (SAM), которые вдохновили разработку различных адаптированных версий для задач медицинской сегментации. Однако адаптированные версии, такие как MedSAM, обучаются на относительно ограниченных медицинских данных, которые часто страдают от неоднородности, недостатка аннотаций и сдвигов распределения. Эти ограничения снижают их способность к обобщению в широком диапазоне задач медицинской сегментации. В связи с этим мы предлагаем MedSAMix — метод объединения моделей, не требующий дополнительного обучения, который интегрирует преимущества как универсальных моделей (например, SAM), так и специализированных моделей (например, MedSAM) для сегментации медицинских изображений. В отличие от традиционных подходов к объединению моделей, которые зависят от ручной настройки и часто приводят к неоптимальным результатам, мы предлагаем метод оптимизации нулевого порядка для автоматического поиска оптимальных решений по слоям. Кроме того, для клинических применений мы разработали два режима, которые удовлетворяют требованиям специфичности домена и способности к обобщению в различных сценариях, используя оптимизацию для одной задачи и многокритериальную оптимизацию соответственно. Обширные оценки на 25 задачах медицинской сегментации показывают, что MedSAMix эффективно снижает смещение моделей и последовательно улучшает производительность как в точности для конкретных доменов, так и в обобщении, достигая улучшений на 6,67% в специализированных задачах и на 4,37% в многозадачных оценках.

English

Universal medical image segmentation models have emerged as a promising paradigm due to their strong generalizability across diverse tasks, showing great potential for a wide range of clinical applications. This potential has been partly driven by the success of general-purpose vision models such as the Segment Anything Model (SAM), which has inspired the development of various fine-tuned variants for medical segmentation tasks. However, fine-tuned variants like MedSAM are trained on comparatively limited medical imaging data that often suffers from heterogeneity, scarce annotations, and distributional shifts. These challenges limit their ability to generalize across a wide range of medical segmentation tasks. In this regard, we propose MedSAMix, a training-free model merging method that integrates the strengths of both generalist models (e.g., SAM) and specialist models (e.g., MedSAM) for medical image segmentation. In contrast to traditional model merging approaches that rely on manual configuration and often result in suboptimal outcomes, we propose a zero-order optimization method to automatically discover optimal layer-wise merging solutions. Furthermore, for clinical applications, we develop two regimes to meet the demand of domain-specificity and generalizability in different scenarios by single-task optimization and multi-objective optimization respectively. Extensive evaluations on 25 medical segmentation tasks demonstrate that MedSAMix effectively mitigates model bias and consistently improves performance in both domain-specific accuracy and generalization, achieving improvements of 6.67% on specialized tasks and 4.37% on multi-task evaluations.

MedSAMix: Подход к слиянию моделей без обучения для сегментации медицинских изображений

MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation

Аннотация

Support