SegDT: Un modelo de segmentación basado en Transformadores de Difusión para imágenes médicas
SegDT: A Diffusion Transformer-Based Segmentation Model for Medical Imaging
July 21, 2025
Autores: Salah Eddine Bekhouche, Gaby Maroun, Fadi Dornaika, Abdenour Hadid
cs.AI
Resumen
La segmentación de imágenes médicas es crucial para muchas tareas en el ámbito de la salud, incluyendo el diagnóstico de enfermedades y la planificación de tratamientos. Un área clave es la segmentación de lesiones cutáneas, la cual es vital para diagnosticar el cáncer de piel y monitorear a los pacientes. En este contexto, este artículo presenta SegDT, un nuevo modelo de segmentación basado en el transformador de difusión (DiT). SegDT está diseñado para funcionar en hardware de bajo costo e incorpora Rectified Flow, lo que mejora la calidad de generación con un número reducido de pasos de inferencia y mantiene la flexibilidad de los modelos de difusión estándar. Nuestro método es evaluado en tres conjuntos de datos de referencia y comparado con varios trabajos existentes, logrando resultados de vanguardia mientras mantiene velocidades de inferencia rápidas. Esto hace que el modelo propuesto sea atractivo para aplicaciones médicas en el mundo real. Este trabajo avanza el rendimiento y las capacidades de los modelos de aprendizaje profundo en el análisis de imágenes médicas, permitiendo herramientas de diagnóstico más rápidas y precisas para los profesionales de la salud. El código está disponible públicamente en https://github.com/Bekhouche/SegDT{GitHub}.
English
Medical image segmentation is crucial for many healthcare tasks, including
disease diagnosis and treatment planning. One key area is the segmentation of
skin lesions, which is vital for diagnosing skin cancer and monitoring
patients. In this context, this paper introduces SegDT, a new segmentation
model based on diffusion transformer (DiT). SegDT is designed to work on
low-cost hardware and incorporates Rectified Flow, which improves the
generation quality at reduced inference steps and maintains the flexibility of
standard diffusion models. Our method is evaluated on three benchmarking
datasets and compared against several existing works, achieving
state-of-the-art results while maintaining fast inference speeds. This makes
the proposed model appealing for real-world medical applications. This work
advances the performance and capabilities of deep learning models in medical
image analysis, enabling faster, more accurate diagnostic tools for healthcare
professionals. The code is made publicly available at
https://github.com/Bekhouche/SegDT{GitHub}.