Диффузионная модель как универсальный инструмент для обучения сегментации

Аннотация

Модели диффузии изначально обучаются для синтеза изображений, однако их траектории удаления шума кодируют богатые, пространственно выровненные визуальные априорные представления. В данной статье мы показываем, что эти априорные знания можно использовать для семантической сегментации и сегментации с открытым словарем по текстовому условию, и что данный подход можно обобщить для различных прикладных задач, чтобы создать универсальную систему сегментации на основе диффузии. Конкретно, мы представляем DiGSeg (Diffusion Models as a Generalist Segmentation Learner), которая перепрофилирует предварительно обученную модель диффузии в унифицированную систему сегментации. Наш подход кодирует входное изображение и эталонную маску в латентное пространство и объединяет их в качестве кондиционирующих сигналов для диффузионной U-Net. Параллельный текстовый путь, выровненный с CLIP, внедряет языковые признаки на нескольких масштабах, что позволяет модели сопоставлять текстовые запросы с развивающимися визуальными представлениями. Такая конструкция преобразует готовый диффузионный бэкбон в универсальный интерфейс, который производит структурированные маски сегментации, обусловленные как внешним видом, так и произвольными текстовыми промптами. Многочисленные эксперименты демонстрируют передовую производительность на стандартных бенчмарках семантической сегментации, а также сильное обобщение на открытом словаре и кросс-доменный перенос в медицинские, дистанционного зондирования и сельскохозяйственные сценарии — без доменно-специфической архитектурной адаптации. Эти результаты указывают на то, что современные диффузионные архитектуры могут служить универсальными системами для сегментации, а не просто генераторами, сокращая разрыв между визуальной генерацией и визуальным пониманием.

English

Diffusion models are primarily trained for image synthesis, yet their denoising trajectories encode rich, spatially aligned visual priors. In this paper, we demonstrate that these priors can be utilized for text-conditioned semantic and open-vocabulary segmentation, and this approach can be generalized to various downstream tasks to make a general-purpose diffusion segmentation framework. Concretely, we introduce DiGSeg (Diffusion Models as a Generalist Segmentation Learner), which repurposes a pretrained diffusion model into a unified segmentation framework. Our approach encodes the input image and ground-truth mask into the latent space and concatenates them as conditioning signals for the diffusion U-Net. A parallel CLIP-aligned text pathway injects language features across multiple scales, enabling the model to align textual queries with evolving visual representations. This design transforms an off-the-shelf diffusion backbone into a universal interface that produces structured segmentation masks conditioned on both appearance and arbitrary text prompts. Extensive experiments demonstrate state-of-the-art performance on standard semantic segmentation benchmarks, as well as strong open-vocabulary generalization and cross-domain transfer to medical, remote sensing, and agricultural scenarios-without domain-specific architectural customization. These results indicate that modern diffusion backbones can serve as generalist segmentation learners rather than pure generators, narrowing the gap between visual generation and visual understanding.

Диффузионная модель как универсальный инструмент для обучения сегментации

Diffusion Model as a Generalist Segmentation Learner

Аннотация

Support