ChatPaper.aiChatPaper

다중모드 대형 언어 모델을 활용한 현미경 이미지 분할 통합

Unifying Segment Anything in Microscopy with Multimodal Large Language Model

May 16, 2025
저자: Manyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan
cs.AI

초록

생체의학 이미지에서 관심 영역의 정확한 분할은 이미지 분석에 있어 상당한 가치를 지닌다. 현재 여러 생체의학 분할을 위한 기초 모델들이 특정 데이터셋에서 우수한 성능을 달성했지만, 일반적으로 보지 못한 도메인 데이터에서는 차선의 성능을 보인다. 이러한 결핍은 분할 전 시각-언어 지식의 부재에 기인한다. 다중모드 대형 언어 모델(MLLMs)은 다중모드 작업에 뛰어난 이해와 추론 능력을 제공하며, 이는 우리가 MLLMs를 활용하여 시각-언어 지식(VLK)을 주입함으로써 시각 모델이 교차 도메인 데이터셋에서 우수한 일반화 능력을 보이도록 하는 데 영감을 준다. 본 논문에서는 MLLMs를 사용하여 SAM이 현미경 교차 도메인 데이터를 학습하도록 유도하는 방법을 제안하며, 이를 현미경에서의 Segment Anything 통합, 즉 uLLSAM이라고 명명한다. 구체적으로, 우리는 시각-언어 의미 정렬(VLSA) 모듈을 제안하여 Segment Anything Model(SAM)에 VLK를 주입한다. SAM이 전역 VLK 프롬프트를 받은 후 성능이 크게 향상되었지만, 경계 윤곽 인식에 있어 결핍이 있음을 발견했다. 따라서, 우리는 SAM을 유도하기 위해 의미 경계 정규화(SBR)를 추가로 제안한다. 우리의 방법은 9개의 인-도메인 현미경 데이터셋에서 Dice 7.71%, SA 12.10%의 성능 향상을 달성하여 최신 기술을 달성했다. 또한, 10개의 아웃-오브-도메인 데이터셋에서 Dice 6.79%, SA 10.08%의 성능 향상을 보이며 강력한 일반화 능력을 입증했다. 코드는 https://github.com/ieellee/uLLSAM에서 확인할 수 있다.
English
Accurate segmentation of regions of interest in biomedical images holds substantial value in image analysis. Although several foundation models for biomedical segmentation have currently achieved excellent performance on certain datasets, they typically demonstrate sub-optimal performance on unseen domain data. We owe the deficiency to lack of vision-language knowledge before segmentation. Multimodal Large Language Models (MLLMs) bring outstanding understanding and reasoning capabilities to multimodal tasks, which inspires us to leverage MLLMs to inject Vision-Language Knowledge (VLK), thereby enabling vision models to demonstrate superior generalization capabilities on cross-domain datasets. In this paper, we propose using MLLMs to guide SAM in learning microscopy crose-domain data, unifying Segment Anything in Microscopy, named uLLSAM. Specifically, we propose the Vision-Language Semantic Alignment (VLSA) module, which injects VLK into Segment Anything Model (SAM). We find that after SAM receives global VLK prompts, its performance improves significantly, but there are deficiencies in boundary contour perception. Therefore, we further propose Semantic Boundary Regularization (SBR) to prompt SAM. Our method achieves performance improvements of 7.71% in Dice and 12.10% in SA across 9 in-domain microscopy datasets, achieving state-of-the-art performance. Our method also demonstrates improvements of 6.79% in Dice and 10.08% in SA across 10 out-ofdomain datasets, exhibiting strong generalization capabilities. Code is available at https://github.com/ieellee/uLLSAM.

Summary

AI-Generated Summary

PDF32May 19, 2025