Unificando Segment Anything en Microscopía con Modelos de Lenguaje Multimodales a Gran Escala

Resumen

La segmentación precisa de regiones de interés en imágenes biomédicas tiene un valor sustancial en el análisis de imágenes. Aunque varios modelos base para segmentación biomédica han logrado actualmente un rendimiento excelente en ciertos conjuntos de datos, suelen demostrar un rendimiento subóptimo en datos de dominios no vistos. Atribuimos esta deficiencia a la falta de conocimiento visión-lenguaje antes de la segmentación. Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) aportan capacidades sobresalientes de comprensión y razonamiento a tareas multimodales, lo que nos inspira a aprovechar los MLLMs para inyectar Conocimiento Visión-Lenguaje (VLK), permitiendo así que los modelos de visión demuestren capacidades de generalización superiores en conjuntos de datos de dominios cruzados. En este artículo, proponemos utilizar MLLMs para guiar a SAM en el aprendizaje de datos de microscopía de dominios cruzados, unificando Segment Anything en Microscopía, denominado uLLSAM. Específicamente, proponemos el módulo de Alineación Semántica Visión-Lenguaje (VLSA), que inyecta VLK en el Modelo de Segmentación Anything (SAM). Descubrimos que, después de que SAM recibe indicaciones globales de VLK, su rendimiento mejora significativamente, pero existen deficiencias en la percepción de los contornos de los límites. Por lo tanto, proponemos adicionalmente la Regularización de Límites Semánticos (SBR) para guiar a SAM. Nuestro método logra mejoras de rendimiento del 7.71% en Dice y del 12.10% en SA en 9 conjuntos de datos de microscopía dentro del dominio, alcanzando un rendimiento de vanguardia. Nuestro método también demuestra mejoras del 6.79% en Dice y del 10.08% en SA en 10 conjuntos de datos fuera del dominio, exhibiendo fuertes capacidades de generalización. El código está disponible en https://github.com/ieellee/uLLSAM.

English

Accurate segmentation of regions of interest in biomedical images holds substantial value in image analysis. Although several foundation models for biomedical segmentation have currently achieved excellent performance on certain datasets, they typically demonstrate sub-optimal performance on unseen domain data. We owe the deficiency to lack of vision-language knowledge before segmentation. Multimodal Large Language Models (MLLMs) bring outstanding understanding and reasoning capabilities to multimodal tasks, which inspires us to leverage MLLMs to inject Vision-Language Knowledge (VLK), thereby enabling vision models to demonstrate superior generalization capabilities on cross-domain datasets. In this paper, we propose using MLLMs to guide SAM in learning microscopy crose-domain data, unifying Segment Anything in Microscopy, named uLLSAM. Specifically, we propose the Vision-Language Semantic Alignment (VLSA) module, which injects VLK into Segment Anything Model (SAM). We find that after SAM receives global VLK prompts, its performance improves significantly, but there are deficiencies in boundary contour perception. Therefore, we further propose Semantic Boundary Regularization (SBR) to prompt SAM. Our method achieves performance improvements of 7.71% in Dice and 12.10% in SA across 9 in-domain microscopy datasets, achieving state-of-the-art performance. Our method also demonstrates improvements of 6.79% in Dice and 10.08% in SA across 10 out-ofdomain datasets, exhibiting strong generalization capabilities. Code is available at https://github.com/ieellee/uLLSAM.

Unificando Segment Anything en Microscopía con Modelos de Lenguaje Multimodales a Gran Escala

Unifying Segment Anything in Microscopy with Multimodal Large Language Model

Resumen

Support