Unificando o Segment Anything em Microscopia com Modelos de Linguagem Multimodais de Grande Escala
Unifying Segment Anything in Microscopy with Multimodal Large Language Model
May 16, 2025
Autores: Manyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan
cs.AI
Resumo
A segmentação precisa de regiões de interesse em imagens biomédicas possui um valor substancial na análise de imagens. Embora vários modelos de base para segmentação biomédica tenham atualmente alcançado desempenho excelente em determinados conjuntos de dados, eles geralmente demonstram desempenho subótimo em dados de domínios não vistos. Atribuímos essa deficiência à falta de conhecimento visão-linguagem antes da segmentação. Modelos de Linguagem Multimodal de Grande Escala (MLLMs) trazem capacidades excepcionais de compreensão e raciocínio para tarefas multimodais, o que nos inspira a aproveitar os MLLMs para injetar Conhecimento Visão-Linguagem (VLK), permitindo assim que modelos de visão demonstrem capacidades superiores de generalização em conjuntos de dados de domínios cruzados. Neste artigo, propomos usar MLLMs para guiar o SAM na aprendizagem de dados de microscopia de domínios cruzados, unificando o Segment Anything in Microscopy, denominado uLLSAM. Especificamente, propomos o módulo de Alinhamento Semântico Visão-Linguagem (VLSA), que injeta VLK no Segment Anything Model (SAM). Descobrimos que, após o SAM receber prompts globais de VLK, seu desempenho melhora significativamente, mas há deficiências na percepção de contornos de fronteira. Portanto, propomos ainda a Regularização de Fronteira Semântica (SBR) para orientar o SAM. Nosso método alcança melhorias de desempenho de 7,71% em Dice e 12,10% em SA em 9 conjuntos de dados de microscopia de domínio interno, atingindo desempenho de ponta. Nosso método também demonstra melhorias de 6,79% em Dice e 10,08% em SA em 10 conjuntos de dados de domínio externo, exibindo fortes capacidades de generalização. O código está disponível em https://github.com/ieellee/uLLSAM.
English
Accurate segmentation of regions of interest in biomedical images holds
substantial value in image analysis. Although several foundation models for
biomedical segmentation have currently achieved excellent performance on
certain datasets, they typically demonstrate sub-optimal performance on unseen
domain data. We owe the deficiency to lack of vision-language knowledge before
segmentation. Multimodal Large Language Models (MLLMs) bring outstanding
understanding and reasoning capabilities to multimodal tasks, which inspires us
to leverage MLLMs to inject Vision-Language Knowledge (VLK), thereby enabling
vision models to demonstrate superior generalization capabilities on
cross-domain datasets. In this paper, we propose using MLLMs to guide SAM in
learning microscopy crose-domain data, unifying Segment Anything in Microscopy,
named uLLSAM. Specifically, we propose the Vision-Language Semantic Alignment
(VLSA) module, which injects VLK into Segment Anything Model (SAM). We find
that after SAM receives global VLK prompts, its performance improves
significantly, but there are deficiencies in boundary contour perception.
Therefore, we further propose Semantic Boundary Regularization (SBR) to prompt
SAM. Our method achieves performance improvements of 7.71% in Dice and 12.10%
in SA across 9 in-domain microscopy datasets, achieving state-of-the-art
performance. Our method also demonstrates improvements of 6.79% in Dice and
10.08% in SA across 10 out-ofdomain datasets, exhibiting strong generalization
capabilities. Code is available at https://github.com/ieellee/uLLSAM.