ChatPaper.aiChatPaper

Medaille S: Ein räumlich-textuelles Prompt-Modell für medizinische Segmentierung

Medal S: Spatio-Textual Prompt Model for Medical Segmentation

November 17, 2025
papers.authors: Pengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li
cs.AI

papers.abstract

Wir stellen Medal S vor, ein medizinisches Segmentierungs-Foundation-Modell, das native räumliche und textuelle Prompts innerhalb eines end-to-end trainierbaren Frameworks unterstützt. Im Gegensatz zu rein textbasierten Methoden ohne räumliches Bewusstsein erreicht Medal S eine kanalweise Ausrichtung zwischen volumetrischen Prompts und Text-Einbettungen, wodurch Ungenauigkeiten durch Auflösungsunterschiede gemildert werden. Durch die Beibehaltung des vollständigen 3D-Kontexts verarbeitet es effizient mehrere Native-Resolution-Masken parallel und verbessert die Multi-Klassen-Segmentierungsleistung. Ein leichtgewichtiges 3D-Faltungsmodul ermöglicht eine präzise Voxelraum-Verfeinerung, die von beiden Prompt-Typen gesteuert wird, und unterstützt bis zu 243 Klassen über CT, MRT, PET, Ultraschall und Mikroskopie im BiomedSegFM-Datensatz. Medal S bietet zwei Prompting-Modi: einen rein textbasierten Modus, bei dem Modellvorhersagen als räumliche Prompts zur Selbstverfeinerung ohne menschliche Eingabe dienen, und einen Hybridmodus, der manuelle Annotationen für mehr Flexibilität einbezieht. Bei der 24-Klassen-Segmentierung reduziert paralleles räumliches Prompting die Inferenzzeit im Vergleich zu sequentiellem Prompting um mehr als 90%. Wir schlagen dynamisches Resampling vor, um das Ziel-Patch-Verhältnis-Ungleichgewicht anzugehen, und erweitern SAT und nnU-Net für Datenaugmentierung. Darüber hinaus entwickeln wir optimierte Textvorverarbeitung, eine zweistufige Inferenzstrategie und Nachverarbeitungstechniken, um Speichereffizienz, Präzision und Inferenzgeschwindigkeit zu verbessern. Im Fünf-Modalitäten-Durchschnitt auf dem Validierungsdatensatz übertrifft Medal S SAT mit einem DSC von 75,44 (vs. 69,83), NSD von 77,34 (vs. 71,06), F1 von 38,24 (vs. 24,88) und DSC TP von 65,46 (vs. 46,97). Medal S erzielt eine hervorragende Leistung, indem es räumliche Präzision mit semantischer textueller Führung in Einklang bringt, und demonstriert überlegene Effizienz und Genauigkeit bei Multi-Klassen-Medizinsegmentierungsaufgaben im Vergleich zu sequentiellen Prompt-basierten Ansätzen. Medal S wird öffentlich unter https://github.com/yinghemedical/Medal-S verfügbar sein.
English
We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.
PDF12December 2, 2025