Medal S: Modelo de Prompt Espaço-Textual para Segmentação Médica

Resumo

Apresentamos o Medal S, um modelo de base para segmentação médica que suporta prompts espaciais em resolução nativa e prompts textuais dentro de uma arquitetura treinável de ponta a ponta. Diferente de métodos baseados apenas em texto que carecem de consciência espacial, o Medal S alcança um alinhamento por canal entre prompts volumétricos e embeddings de texto, mitigando imprecisões decorrentes de incompatibilidades de resolução. Ao preservar o contexto 3D completo, ele processa eficientemente múltiplas máscaras em resolução nativa em paralelo, melhorando o desempenho na segmentação multiclasse. Um módulo convolucional 3D leve permite um refinamento preciso no espaço voxel, guiado por ambos os tipos de prompt, suportando até 243 classes através das modalidades de TC, RM, PET, ultrassom e microscopia no conjunto de dados BiomedSegFM. O Medal S oferece dois modos de prompting: um modo apenas textual, onde as previsões do modelo servem como prompts espaciais para autorrefinamento sem intervenção humana, e um modo híbrido, que incorpora anotações manuais para maior flexibilidade. Para segmentação de 24 classes, o prompting espacial paralelo reduz o tempo de inferência em mais de 90% em comparação com o prompting sequencial. Propomos uma técnica de reamostragem dinâmica para abordar o desequilíbrio na razão alvo-patch, estendendo o SAT e o nnU-Net para aumento de dados. Adicionalmente, desenvolvemos um pré-processamento de texto otimizado, uma estratégia de inferência em dois estágios e técnicas de pós-processamento para melhorar a eficiência de memória, a precisão e a velocidade de inferência. Na média das cinco modalidades no conjunto de validação, o Medal S supera o SAT com um DSC de 75,44 (vs. 69,83), NSD de 77,34 (vs. 71,06), F1 de 38,24 (vs. 24,88) e DSC TP de 65,46 (vs. 46,97). O Medal S alcança um desempenho excelente ao harmonizar precisão espacial com orientação textual semântica, demonstrando eficiência e acurácia superiores em tarefas de segmentação médica multiclasse em comparação com abordagens baseadas em prompting sequencial. O Medal S estará publicamente disponível em https://github.com/yinghemedical/Medal-S.

English

We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.