Medaglia S: Modello a Prompt Spazio-Testuale per la Segmentazione Medica
Medal S: Spatio-Textual Prompt Model for Medical Segmentation
November 17, 2025
Autori: Pengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li
cs.AI
Abstract
Introduciamo Medal S, un modello fondante per la segmentazione medica che supporta prompt spaziali a risoluzione nativa e prompt testuali all'interno di un framework addestrabile end-to-end. A differenza dei metodi basati solo sul testo che mancano di consapevolezza spaziale, Medal S raggiunge un allineamento per canale tra i prompt volumetrici e gli embedding testuali, mitigando le imprecisioni dovute a mismatch di risoluzione. Preservando il contesto 3D completo, elabora efficientemente multiple maschere a risoluzione nativa in parallelo, migliorando le prestazioni nella segmentazione multi-classe. Un modulo convoluzionale 3D leggero consente una raffinazione precisa nello spazio dei voxel guidata da entrambi i tipi di prompt, supportando fino a 243 classi attraverso le modalità TC, risonanza magnetica, PET, ultrasuoni e microscopia nel dataset BiomedSegFM. Medal S offre due modalità di prompting: una modalità solo testo, in cui le previsioni del modello fungono da prompt spaziali per un auto-affinamento senza input umano, e una modalità ibrida, che incorpora annotazioni manuali per una maggiore flessibilità. Per la segmentazione a 24 classi, il prompting spaziale parallelo riduce il tempo di inferenza di oltre il 90% rispetto al prompting sequenziale. Proponiamo un ricampionamento dinamico per affrontare lo squilibrio del rapporto target-patch, estendendo SAT e nnU-Net per l'aumento dei dati. Inoltre, sviluppiamo una pre-elaborazione del testo ottimizzata, una strategia di inferenza a due stadi e tecniche di post-elaborazione per migliorare l'efficienza della memoria, la precisione e la velocità di inferenza. Sulla media delle cinque modalità nel set di validazione, Medal S supera SAT con un DSC di 75.44 (vs. 69.83), NSD di 77.34 (vs. 71.06), F1 di 38.24 (vs. 24.88) e DSC TP di 65.46 (vs. 46.97). Medal S raggiunge prestazioni eccellenti armonizzando la precisione spaziale con la guida semantica testuale, dimostrando un'efficienza e un'accuratezza superiori nei compiti di segmentazione medica multi-classe rispetto agli approcci basati su prompt sequenziali. Medal S sarà pubblicamente disponibile all'indirizzo https://github.com/yinghemedical/Medal-S.
English
We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.