Diffusiemodel als Algemene Segmentatieleerder

Samenvatting

Diffusiemodellen worden hoofdzakelijk getraind voor beeldgeneratie, maar hun trajecten voor ruisverwijdering coderen rijke, ruimtelijk uitgelijnde visuele voorkennis. In dit artikel tonen we aan dat deze voorkennis kan worden gebruikt voor tekstgeconditioneerde semantische en open-vocabulariumsegmentatie, en dat deze aanpak kan worden gegeneraliseerd naar diverse downstreamtaken om een algemene diffusiesegmentatieframework te creëren. Concreet introduceren we DiGSeg (Diffusion Models as a Generalist Segmentation Learner), dat een voorgetraind diffusiemodel hergebruikt als een uniform segmentatieframework. Onze aanpak codeert de invoerafbeelding en de grondwaarheidsmasker in de latente ruimte en concateneert ze als conditioneringssignalen voor de diffusie U-Net. Een parallelle, op CLIP uitgelijnde tekstweg injecteert taalfeatures op meerdere schalen, waardoor het model tekstuele zoekopdrachten kan uitlijnen met evoluerende visuele representaties. Dit ontwerp transformeert een standaard diffusie-backbone in een universele interface die gestructureerde segmentatiemaskers produceert, geconditioneerd op zowel uiterlijk als willekeurige tekstprompts. Uitgebreide experimenten demonstreren state-of-the-art prestaties op standaard benchmarks voor semantische segmentatie, evenals sterke open-vocabulariumgeneralizatie en domeinoverschrijdende transfer naar medische, remote sensing- en landbouwsituaties - zonder domeinspecifieke architecturale aanpassingen. Deze resultaten geven aan dat moderne diffusie-backbones kunnen dienen als generalistische segmentatieleerders in plaats van pure generators, waardoor de kloof tussen visuele generatie en visueel begrip wordt verkleind.

English

Diffusion models are primarily trained for image synthesis, yet their denoising trajectories encode rich, spatially aligned visual priors. In this paper, we demonstrate that these priors can be utilized for text-conditioned semantic and open-vocabulary segmentation, and this approach can be generalized to various downstream tasks to make a general-purpose diffusion segmentation framework. Concretely, we introduce DiGSeg (Diffusion Models as a Generalist Segmentation Learner), which repurposes a pretrained diffusion model into a unified segmentation framework. Our approach encodes the input image and ground-truth mask into the latent space and concatenates them as conditioning signals for the diffusion U-Net. A parallel CLIP-aligned text pathway injects language features across multiple scales, enabling the model to align textual queries with evolving visual representations. This design transforms an off-the-shelf diffusion backbone into a universal interface that produces structured segmentation masks conditioned on both appearance and arbitrary text prompts. Extensive experiments demonstrate state-of-the-art performance on standard semantic segmentation benchmarks, as well as strong open-vocabulary generalization and cross-domain transfer to medical, remote sensing, and agricultural scenarios-without domain-specific architectural customization. These results indicate that modern diffusion backbones can serve as generalist segmentation learners rather than pure generators, narrowing the gap between visual generation and visual understanding.

Diffusiemodel als Algemene Segmentatieleerder

Diffusion Model as a Generalist Segmentation Learner

Samenvatting

Support