Medaille S: Een Spatio-Textueel Prompt Model voor Medische Segmentatie
Medal S: Spatio-Textual Prompt Model for Medical Segmentation
November 17, 2025
Auteurs: Pengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li
cs.AI
Samenvatting
Wij introduceren Medal S, een medisch segmentatiefoundationmodel dat native-resolutie ruimtelijke en tekstuele prompts ondersteunt binnen een end-to-end trainbaar raamwerk. In tegenstelling tot uitsluitend tekstgebaseerde methoden die ruimtelijk bewustzijn missen, bereikt Medal S een kanaalgewijze uitlijning tussen volumetrische prompts en tekst-embeddings, waardoor onnauwkeurigheden door resolutieverschillen worden verminderd. Door de volledige 3D-context te behouden, verwerkt het efficiënt meerdere masks op native resolutie parallel, wat de prestaties voor multiklasse-segmentatie verbetert. Een lichtgewicht 3D-convolutiemodule maakt precieze verfijning in de voxelruimte mogelijk, geleid door beide prompttypes, en ondersteunt tot 243 klassen across CT, MRI, PET, echografie en microscopie modaliteiten in de BiomedSegFM-dataset. Medal S biedt twee promptingmodi: een tekst-only modus, waarbij modelvoorspellingen dienen als ruimtelijke prompts voor zelfverfijning zonder menselijke input, en een hybride modus, die handmatige annotaties incorporeert voor meer flexibiliteit. Voor 24-klasse segmentatie reduceert parallelle ruimtelijke prompting de inferentietijd met meer dan 90% vergeleken met sequentiële prompting. Wij stellen dynamische resampling voor om doel-patch-ratio-onbalans aan te pakken, waarbij SAT en nnU-Net worden uitgebreid voor data-augmentatie. Verder ontwikkelen we geoptimaliseerde tekstvoorbewerking, een tweefasen-inferentiestrategie en post-processingtechnieken om geheugenefficiëntie, precisie en inferentiesnelheid te verbeteren. Op de gemiddelde vijf-modaliteitenscore van de validatieset presteert Medal S beter dan SAT met een DSC van 75.44 (vs. 69.83), NSD van 77.34 (vs. 71.06), F1 van 38.24 (vs. 24.88) en DSC TP van 65.46 (vs. 46.97). Medal S bereikt excellente prestaties door ruimtelijke precisie te harmoniseren met semantische tekstuele begeleiding, en demonstreert superieure efficiëntie en nauwkeurigheid in multiklasse medische segmentatietaken vergeleken met op sequentiële prompting gebaseerde benaderingen. Medal S zal publiekelijk beschikbaar zijn op https://github.com/yinghemedical/Medal-S.
English
We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.