ChatPaper.aiChatPaper

Medalla S: Modelo de Indicación Espacio-Textual para Segmentación Médica

Medal S: Spatio-Textual Prompt Model for Medical Segmentation

November 17, 2025
Autores: Pengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li
cs.AI

Resumen

Presentamos Medal S, un modelo fundacional de segmentación médica que admite indicaciones espaciales y textuales en resolución nativa dentro de un marco entrenable de extremo a extremo. A diferencia de los métodos basados únicamente en texto que carecen de conciencia espacial, Medal S logra una alineación a nivel de canal entre las indicaciones volumétricas y los embeddings de texto, mitigando las imprecisiones causadas por desajustes de resolución. Al preservar el contexto 3D completo, procesa eficientemente múltiples máscaras en resolución nativa en paralelo, mejorando el rendimiento en segmentación multiclase. Un módulo convolucional 3D ligero permite un refinamiento preciso en el espacio vóxel guiado por ambos tipos de indicaciones, admitiendo hasta 243 clases en modalidades de TC, IRM, PET, ultrasonido y microscopía del conjunto de datos BiomedSegFM. Medal S ofrece dos modos de indicación: un modo exclusivamente textual, donde las predicciones del modelo sirven como indicaciones espaciales para el autorrefinamiento sin intervención humana, y un modo híbrido, que incorpora anotaciones manuales para una mayor flexibilidad. Para la segmentación de 24 clases, la indicación espacial paralela reduce el tiempo de inferencia en más de un 90% en comparación con la indicación secuencial. Proponemos un remuestreo dinámico para abordar el desequilibrio en la relación objetivo-parche, extendiendo SAT y nnU-Net para el aumento de datos. Además, desarrollamos una preprocesamiento de texto optimizado, una estrategia de inferencia en dos etapas y técnicas de postprocesamiento para mejorar la eficiencia de memoria, la precisión y la velocidad de inferencia. En el promedio de las cinco modalidades del conjunto de validación, Medal S supera a SAT con un DSC de 75.44 (frente a 69.83), un NSD de 77.34 (frente a 71.06), un F1 de 38.24 (frente a 24.88) y un DSC TP de 65.46 (frente a 46.97). Medal S logra un rendimiento excelente al armonizar la precisión espacial con la guía semántica textual, demostrando una eficiencia y precisión superiores en tareas de segmentación médica multiclase en comparación con enfoques basados en indicaciones secuenciales. Medal S estará disponible públicamente en https://github.com/yinghemedical/Medal-S.
English
We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.
PDF12December 2, 2025