ChatPaper.aiChatPaper

顕微鏡におけるセグメンテーションの統一化とマルチモーダル大規模言語モデル

Unifying Segment Anything in Microscopy with Multimodal Large Language Model

May 16, 2025
著者: Manyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan
cs.AI

要旨

生体医用画像における関心領域の正確なセグメンテーションは、画像解析において重要な価値を有する。現在、生体医用セグメンテーションのためのいくつかの基盤モデルが特定のデータセットで優れた性能を達成しているが、未見のドメインデータに対しては通常、最適とは言えない性能を示す。この欠陥は、セグメンテーション前の視覚-言語知識の不足に起因すると考えられる。マルチモーダル大規模言語モデル(MLLMs)は、マルチモーダルタスクに優れた理解と推論能力をもたらし、これにより視覚モデルがクロスドメインデータセットで優れた汎化能力を示すことを可能にする。本論文では、MLLMsを利用してSAMに顕微鏡クロスドメインデータを学習させることを提案し、顕微鏡におけるSegment Anythingを統一するuLLSAMを命名する。具体的には、視覚-言語意味整合(VLSA)モジュールを提案し、Segment Anything Model(SAM)に視覚-言語知識(VLK)を注入する。SAMがグローバルなVLKプロンプトを受信した後、その性能が大幅に向上するが、境界輪郭の知覚に欠陥があることがわかった。そこで、さらに意味境界正則化(SBR)を提案してSAMをプロンプトする。我々の手法は、9つのドメイン内顕微鏡データセットにおいて、Diceで7.71%、SAで12.10%の性能向上を達成し、最先端の性能を実現した。また、10つのドメイン外データセットにおいても、Diceで6.79%、SAで10.08%の改善を示し、強力な汎化能力を発揮した。コードはhttps://github.com/ieellee/uLLSAMで公開されている。
English
Accurate segmentation of regions of interest in biomedical images holds substantial value in image analysis. Although several foundation models for biomedical segmentation have currently achieved excellent performance on certain datasets, they typically demonstrate sub-optimal performance on unseen domain data. We owe the deficiency to lack of vision-language knowledge before segmentation. Multimodal Large Language Models (MLLMs) bring outstanding understanding and reasoning capabilities to multimodal tasks, which inspires us to leverage MLLMs to inject Vision-Language Knowledge (VLK), thereby enabling vision models to demonstrate superior generalization capabilities on cross-domain datasets. In this paper, we propose using MLLMs to guide SAM in learning microscopy crose-domain data, unifying Segment Anything in Microscopy, named uLLSAM. Specifically, we propose the Vision-Language Semantic Alignment (VLSA) module, which injects VLK into Segment Anything Model (SAM). We find that after SAM receives global VLK prompts, its performance improves significantly, but there are deficiencies in boundary contour perception. Therefore, we further propose Semantic Boundary Regularization (SBR) to prompt SAM. Our method achieves performance improvements of 7.71% in Dice and 12.10% in SA across 9 in-domain microscopy datasets, achieving state-of-the-art performance. Our method also demonstrates improvements of 6.79% in Dice and 10.08% in SA across 10 out-ofdomain datasets, exhibiting strong generalization capabilities. Code is available at https://github.com/ieellee/uLLSAM.

Summary

AI-Generated Summary

PDF32May 19, 2025