Medal S:医療画像セグメンテーションのための時空間プロンプトモデル
Medal S: Spatio-Textual Prompt Model for Medical Segmentation
November 17, 2025
著者: Pengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li
cs.AI
要旨
本論文では、医用画像分割基盤モデルMedal Sを提案する。本モデルは、エンドツーエンドで学習可能なフレームワーク内で、ネイティブ解像度の空間プロンプトとテキストプロンプトを統合的にサポートする。空間認識を欠くテキストのみの手法とは異なり、Medal Sはボリュームプロンプトとテキスト埋め込みのチャネル単位での整合を実現し、解像度の不一致に起因する不正確さを軽減する。完全な3Dコンテキストを保持することで、複数のネイティブ解像度マスクを並列処理し、多クラス分割の性能を向上させる。軽量な3D畳み込みモジュールにより、両プロンプトタイプに導かれた精密なボクセル空間の洗練化を実現し、BiomedSegFMデータセットにおけるCT、MRI、PET、超音波、顕微鏡画像の最大243クラスに対応する。
Medal Sは2つのプロンプトモードを提供する:人間の入力を必要とせず、モデル予測を空間プロンプトとして自己洗練するテキストのみモードと、手動アノテーションを組み込んで柔軟性を高めたハイブリッドモードである。24クラス分割において、並列空間プロンプトは逐次プロンプトと比較して推論時間を90%以上削減する。対象領域とパッチの比率の不均衡に対処するため、動的リサンプリングを提案し、SATおよびnnU-Netを拡張したデータ拡張を実施する。さらに、メモリ効率、精度、推論速度を改善するため、最適化されたテキスト前処理、2段階推論戦略、後処理技術を開発した。
検証セットにおける5モダリティ平均では、Medal SはSATを上回り、DSC 75.44(対69.83)、NSD 77.34(対71.06)、F1 38.24(対24.88)、DSC TP 65.46(対46.97)を達成した。Medal Sは、空間的精度と意味的テキストガイダンスを調和させることで優れた性能を実現し、逐次プロンプトベースの手法と比較して、多クラス医用画像分割タスクにおいて卓越した効率性と正確性を示す。Medal Sはhttps://github.com/yinghemedical/Medal-S で公開予定である。
English
We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.