메달 S: 의료 영상 분할을 위한 시공간-텍스트 프롬프트 모델
Medal S: Spatio-Textual Prompt Model for Medical Segmentation
November 17, 2025
저자: Pengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li
cs.AI
초록
우리는 end-to-end 학습 가능한 프레임워크 내에서 기본 해상도의 공간 및 텍스트 프롬프트를 지원하는 의료 영상 분할 기초 모델인 Medal S를 소개한다. 공간 인식이 부족한 텍스트 전용 방법론과 달리, Medal S는 볼류메트릭 프롬프트와 텍스트 임베딩 간의 채널 단위 정렬을 통해 해상도 불일치로 인한 오류를 완화한다. 완전한 3D 컨텍스트를 보존함으로써 여러 기본 해상도 마스크를 병렬로 효율적으로 처리하여 다중 클래스 분할 성능을 향상시킨다. 경량 3D 컨볼루션 모듈은 두 프롬프트 유형의 지도를 받아 복셀 공간에서 정밀한 정제를 가능하게 하며, BiomedSegFM 데이터셋의 CT, MRI, PET, 초음파, 현미경 영상에 걸쳐 최대 243개 클래스를 지원한다. Medal S는 두 가지 프롬프트 모드를 제공한다: 인간 입력 없이 모델 예측 결과를 공간 프롬프트로 활용하여 자체 정제를 수행하는 텍스트 전용 모드와, 수동 주석을 통합하여 유연성을 높인 하이브리드 모드이다. 24개 클래스 분할 작업에서 병렬 공간 프롬프팅은 순차적 프롬프팅 대비 추론 시간을 90% 이상 단축한다. 우리는 대상-패치 비율 불균형 문제를 해결하기 위해 동적 리샘플링을 제안하고, SAT와 nnU-Net을 확장하여 데이터 증강을 수행한다. 또한 메모리 효율성, 정밀도 및 추론 속도 향상을 위해 최적화된 텍스트 전처리, 2단계 추론 전략, 후처리 기법을 개발하였다. 검증 세트에서 5가지 영상 방식 평균에 대해, Medal S는 DSC 75.44(SAT 69.83 대비), NSD 77.34(71.06 대비), F1 38.24(24.88 대비), DSC TP 65.46(46.97 대비)로 SAT를 능가하였다. Medal S는 공간 정밀도와 의미론적 텍스트 지도를 조화롭게 통합하여 순차적 프롬프트 기반 접근법 대비 다중 클래스 의료 영상 분할 작업에서 우수한 효율성과 정확도를 입증하였다. Medal S는 https://github.com/yinghemedical/Medal-S에서 공개될 예정이다.
English
We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.