Unificando Segment Anything en Microscopía con Modelos de Lenguaje Multimodales a Gran Escala
Unifying Segment Anything in Microscopy with Multimodal Large Language Model
May 16, 2025
Autores: Manyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan
cs.AI
Resumen
La segmentación precisa de regiones de interés en imágenes biomédicas tiene un valor sustancial en el análisis de imágenes. Aunque varios modelos base para segmentación biomédica han logrado actualmente un rendimiento excelente en ciertos conjuntos de datos, suelen demostrar un rendimiento subóptimo en datos de dominios no vistos. Atribuimos esta deficiencia a la falta de conocimiento visión-lenguaje antes de la segmentación. Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) aportan capacidades sobresalientes de comprensión y razonamiento a tareas multimodales, lo que nos inspira a aprovechar los MLLMs para inyectar Conocimiento Visión-Lenguaje (VLK), permitiendo así que los modelos de visión demuestren capacidades de generalización superiores en conjuntos de datos de dominios cruzados. En este artículo, proponemos utilizar MLLMs para guiar a SAM en el aprendizaje de datos de microscopía de dominios cruzados, unificando Segment Anything en Microscopía, denominado uLLSAM. Específicamente, proponemos el módulo de Alineación Semántica Visión-Lenguaje (VLSA), que inyecta VLK en el Modelo de Segmentación Anything (SAM). Descubrimos que, después de que SAM recibe indicaciones globales de VLK, su rendimiento mejora significativamente, pero existen deficiencias en la percepción de los contornos de los límites. Por lo tanto, proponemos adicionalmente la Regularización de Límites Semánticos (SBR) para guiar a SAM. Nuestro método logra mejoras de rendimiento del 7.71% en Dice y del 12.10% en SA en 9 conjuntos de datos de microscopía dentro del dominio, alcanzando un rendimiento de vanguardia. Nuestro método también demuestra mejoras del 6.79% en Dice y del 10.08% en SA en 10 conjuntos de datos fuera del dominio, exhibiendo fuertes capacidades de generalización. El código está disponible en https://github.com/ieellee/uLLSAM.
English
Accurate segmentation of regions of interest in biomedical images holds
substantial value in image analysis. Although several foundation models for
biomedical segmentation have currently achieved excellent performance on
certain datasets, they typically demonstrate sub-optimal performance on unseen
domain data. We owe the deficiency to lack of vision-language knowledge before
segmentation. Multimodal Large Language Models (MLLMs) bring outstanding
understanding and reasoning capabilities to multimodal tasks, which inspires us
to leverage MLLMs to inject Vision-Language Knowledge (VLK), thereby enabling
vision models to demonstrate superior generalization capabilities on
cross-domain datasets. In this paper, we propose using MLLMs to guide SAM in
learning microscopy crose-domain data, unifying Segment Anything in Microscopy,
named uLLSAM. Specifically, we propose the Vision-Language Semantic Alignment
(VLSA) module, which injects VLK into Segment Anything Model (SAM). We find
that after SAM receives global VLK prompts, its performance improves
significantly, but there are deficiencies in boundary contour perception.
Therefore, we further propose Semantic Boundary Regularization (SBR) to prompt
SAM. Our method achieves performance improvements of 7.71% in Dice and 12.10%
in SA across 9 in-domain microscopy datasets, achieving state-of-the-art
performance. Our method also demonstrates improvements of 6.79% in Dice and
10.08% in SA across 10 out-ofdomain datasets, exhibiting strong generalization
capabilities. Code is available at https://github.com/ieellee/uLLSAM.Summary
AI-Generated Summary