ChatPaper.aiChatPaper

Het Verenigen van Segment Anything in Microscopie met Multimodale Grote Taalmodellen

Unifying Segment Anything in Microscopy with Multimodal Large Language Model

May 16, 2025
Auteurs: Manyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan
cs.AI

Samenvatting

Nauwkeurige segmentatie van interessegebieden in biomedische afbeeldingen heeft aanzienlijke waarde in beeldanalyse. Hoewel verschillende basis modellen voor biomedische segmentatie momenteel uitstekende prestaties leveren op bepaalde datasets, vertonen ze doorgaans suboptimale prestaties op ongeziene domeindata. Wij schrijven dit tekort toe aan het gebrek aan visie-taal kennis voorafgaand aan de segmentatie. Multimodale Large Language Models (MLLMs) brengen uitstekende begrips- en redeneervermogens naar multimodale taken, wat ons inspireert om MLLMs te gebruiken om Vision-Language Knowledge (VLK) in te brengen, waardoor visie modellen superieure generalisatievermogens kunnen demonstreren op cross-domein datasets. In dit artikel stellen we voor om MLLMs te gebruiken om SAM te begeleiden bij het leren van microscopie cross-domein data, waarbij we Segment Anything in Microscopy verenigen, genaamd uLLSAM. Specifiek stellen we de Vision-Language Semantic Alignment (VLSA) module voor, die VLK injecteert in het Segment Anything Model (SAM). We ontdekken dat nadat SAM globale VLK prompts ontvangt, de prestaties aanzienlijk verbeteren, maar er tekortkomingen zijn in de waarneming van contourgrenzen. Daarom stellen we verder Semantic Boundary Regularization (SBR) voor om SAM te stimuleren. Onze methode behaalt prestatieverbeteringen van 7,71% in Dice en 12,10% in SA over 9 in-domein microscopie datasets, wat state-of-the-art prestaties oplevert. Onze methode toont ook verbeteringen van 6,79% in Dice en 10,08% in SA over 10 out-of-domain datasets, wat sterke generalisatievermogens aantoont. Code is beschikbaar op https://github.com/ieellee/uLLSAM.
English
Accurate segmentation of regions of interest in biomedical images holds substantial value in image analysis. Although several foundation models for biomedical segmentation have currently achieved excellent performance on certain datasets, they typically demonstrate sub-optimal performance on unseen domain data. We owe the deficiency to lack of vision-language knowledge before segmentation. Multimodal Large Language Models (MLLMs) bring outstanding understanding and reasoning capabilities to multimodal tasks, which inspires us to leverage MLLMs to inject Vision-Language Knowledge (VLK), thereby enabling vision models to demonstrate superior generalization capabilities on cross-domain datasets. In this paper, we propose using MLLMs to guide SAM in learning microscopy crose-domain data, unifying Segment Anything in Microscopy, named uLLSAM. Specifically, we propose the Vision-Language Semantic Alignment (VLSA) module, which injects VLK into Segment Anything Model (SAM). We find that after SAM receives global VLK prompts, its performance improves significantly, but there are deficiencies in boundary contour perception. Therefore, we further propose Semantic Boundary Regularization (SBR) to prompt SAM. Our method achieves performance improvements of 7.71% in Dice and 12.10% in SA across 9 in-domain microscopy datasets, achieving state-of-the-art performance. Our method also demonstrates improvements of 6.79% in Dice and 10.08% in SA across 10 out-ofdomain datasets, exhibiting strong generalization capabilities. Code is available at https://github.com/ieellee/uLLSAM.

Summary

AI-Generated Summary

PDF22May 19, 2025