ChatPaper.aiChatPaper

Médaille S : Modèle de Prompt Spatio-Textuel pour la Segmentation Médicale

Medal S: Spatio-Textual Prompt Model for Medical Segmentation

November 17, 2025
papers.authors: Pengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li
cs.AI

papers.abstract

Nous présentons Medal S, un modèle fondateur de segmentation médicale qui prend en charge des prompts spatiaux en résolution native et textuels au sein d'une architecture entraînable de bout en bout. Contrairement aux méthodes purement textuelles dépourvues de conscience spatiale, Medal S réalise un alignement canal par canal entre les prompts volumétriques et les embeddings textuels, atténuant les inexactitudes dues aux écarts de résolution. En préservant le contexte 3D complet, il traite efficacement plusieurs masques en résolution native en parallèle, améliorant les performances de segmentation multi-classes. Un module convolutif 3D léger permet un raffinement précis dans l'espace voxel guidé par les deux types de prompts, prenant en charge jusqu'à 243 classes à travers les modalités TDM, IRM, TEP, échographie et microscopie du jeu de données BiomedSegFM. Medal S propose deux modes d'invite : un mode texte uniquement, où les prédictions du modèle servent de prompts spatiaux pour un auto-raffinement sans intervention humaine, et un mode hybride, intégrant des annotations manuelles pour une flexibilité accrue. Pour une segmentation à 24 classes, le prompt spatial parallèle réduit le temps d'inférence de plus de 90 % par rapport à un prompt séquentiel. Nous proposons un rééchantillonnage dynamique pour résoudre le déséquilibre du ratio cible-patch, étendant SAT et nnU-Net pour l'augmentation des données. De plus, nous développons un prétraitement textuel optimisé, une stratégie d'inférence en deux étapes et des techniques de post-traitement pour améliorer l'efficacité mémoire, la précision et la vitesse d'inférence. Sur la moyenne des cinq modalités de l'ensemble de validation, Medal S surpasse SAT avec un DSC de 75,44 (contre 69,83), un NSD de 77,34 (contre 71,06), un F1 de 38,24 (contre 24,88) et un DSC TP de 65,46 (contre 46,97). Medal S atteint d'excellentes performances en harmonisant la précision spatiale avec le guidage sémantique textuel, démontrant une efficacité et une exactitude supérieures dans les tâches de segmentation médicale multi-classes par rapport aux approches basées sur des prompts séquentiels. Medal S sera accessible publiquement à l'adresse https://github.com/yinghemedical/Medal-S.
English
We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.
PDF12December 2, 2025