El Modelo de Difusión como un Aprendiz de Segmentación Generalista

Resumen

Los modelos de difusión se entrenan principalmente para síntesis de imágenes, pero sus trayectorias de eliminación de ruido codifican ricos antecedentes visuales espacialmente alineados. En este artículo, demostramos que estos antecedentes pueden utilizarse para segmentación semántica y de vocabulario abierto condicionada por texto, y que este enfoque puede generalizarse a diversas tareas posteriores para crear un marco de segmentación por difusión de propósito general. Concretamente, presentamos DiGSeg (Modelos de Difusión como un Segmentador Generalista), que readapta un modelo de difusión preentrenado en un marco de segmentación unificado. Nuestro enfoque codifica la imagen de entrada y la máscara de referencia en el espacio latente y las concatena como señales de condicionamiento para la U-Net de difusión. Una vía de texto paralela alineada con CLIP inyecta características lingüísticas a múltiples escalas, permitiendo al modelo alinear consultas textuales con representaciones visuales en evolución. Este diseño transforma una red de difusión estándar en una interfaz universal que produce máscaras de segmentación estructuradas condicionadas tanto por la apariencia como por prompts de texto arbitrarios. Experimentos exhaustivos demuestran un rendimiento de vanguardia en benchmarks estándar de segmentación semántica, así como una fuerte generalización de vocabulario abierto y transferencia cruzada de dominio a escenarios médicos, de teledetección y agrícolas, sin personalización arquitectónica específica del dominio. Estos resultados indican que las redes modernas de difusión pueden funcionar como segmentadores generalistas en lugar de meros generadores, reduciendo la brecha entre la generación visual y la comprensión visual.

English

Diffusion models are primarily trained for image synthesis, yet their denoising trajectories encode rich, spatially aligned visual priors. In this paper, we demonstrate that these priors can be utilized for text-conditioned semantic and open-vocabulary segmentation, and this approach can be generalized to various downstream tasks to make a general-purpose diffusion segmentation framework. Concretely, we introduce DiGSeg (Diffusion Models as a Generalist Segmentation Learner), which repurposes a pretrained diffusion model into a unified segmentation framework. Our approach encodes the input image and ground-truth mask into the latent space and concatenates them as conditioning signals for the diffusion U-Net. A parallel CLIP-aligned text pathway injects language features across multiple scales, enabling the model to align textual queries with evolving visual representations. This design transforms an off-the-shelf diffusion backbone into a universal interface that produces structured segmentation masks conditioned on both appearance and arbitrary text prompts. Extensive experiments demonstrate state-of-the-art performance on standard semantic segmentation benchmarks, as well as strong open-vocabulary generalization and cross-domain transfer to medical, remote sensing, and agricultural scenarios-without domain-specific architectural customization. These results indicate that modern diffusion backbones can serve as generalist segmentation learners rather than pure generators, narrowing the gap between visual generation and visual understanding.

El Modelo de Difusión como un Aprendiz de Segmentación Generalista

Diffusion Model as a Generalist Segmentation Learner

Resumen

Support