Medal S: Пространственно-текстовая промпт-модель для медицинской сегментации
Medal S: Spatio-Textual Prompt Model for Medical Segmentation
November 17, 2025
Авторы: Pengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li
cs.AI
Аннотация
Мы представляем Medal S — фундаментальную модель для медицинской сегментации, поддерживающую нативные пространственные и текстовые промпты в рамках сквозной обучаемой архитектуры. В отличие от методов, использующих только текст и лишённых пространственного контекста, Medal S обеспечивает поэлементное выравнивание объёмных промптов и текстовых эмбеддингов, минимизируя погрешности, вызванные несоответствием разрешений. Сохраняя полный 3D-контекст, модель эффективно обрабатывает несколько масок в нативном разрешении параллельно, повышая производительность при многоклассовой сегментации. Лёгкий 3D-свёрточный модуль обеспечивает точное уточнение в воксельном пространстве на основе обоих типов промптов, поддерживая до 243 классов для данных КТ, МРТ, ПЭТ, УЗИ и микроскопии из набора данных BiomedSegFM. Medal S предлагает два режима промптинга: текстовый режим, в котором прогнозы модели служат пространственными промптами для самоуточнения без участия человека, и гибридный режим, включающий ручные разметки для повышения гибкости. При 24-классовой сегментации параллельный пространственный промптинг сокращает время вывода более чем на 90% по сравнению с последовательным промптингом. Мы предлагаем метод динамического передискретизации для устранения дисбаланса соотношения целевых участков и патчей, расширяя подходы SAT и nnU-Net для аугментации данных. Кроме того, мы разработали оптимизированную текстовую предобработку, двухэтапную стратегию вывода и методы постобработки для улучшения эффективности использования памяти, точности и скорости вывода. На валидационной выборке по усреднённым показателям пяти модальностей Medal S превосходит SAT с DSC 75.44 (против 69.83), NSD 77.34 (против 71.06), F1 38.24 (против 24.88) и DSC TP 65.46 (против 46.97). Medal S демонстрирует высокую производительность за счёт гармонизации пространственной точности и семантической текстовой guidance, обеспечивая превосходную эффективность и точность в задачах многоклассовой медицинской сегментации по сравнению с подходами на основе последовательных промптов. Модель Medal S будет общедоступна по адресу https://github.com/yinghemedical/Medal-S.
English
We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.