Модели диффузии с раздельным остаточным шумоподавлением для унифицированного и эффективного по данным перевода изображение-в-изображение

Аннотация

Мы предлагаем модели диффузии с разделённым остаточным шумоподавлением (DRDD) для унифицированного и эффективного с точки зрения данных преобразования изображение-в-изображение (I2I). Несмотря на то, что диффузионные модели продвинули I2I-перевод в плане качества и разнообразия, мы обнаруживаем ранее недостаточно изученное свойство диффузионных моделей. Ключевым моментом является то, что помимо своей традиционной роли поднятия многообразия (т.е. перемещения данных с низкоразмерных многообразий), введение гауссовского шума способствует гармонизации доменов путем неявного выравнивания распределений признаков между доменами — свойство, особенно полезное для унифицированного I2I-перевода. Однако существующие диффузионные модели преждевременно разрушают этот эффект гармонизации, поскольку шум и остатки удаляются одновременно в едином связанном процессе диффузии. Чтобы решить эту проблему, DRDD разделяет процесс диффузии на две последовательные и независимые стадии: (1) стохастическую диффузию шума для гармонизации доменов и поднятия многообразия, и (2) детерминированную диффузию остатков, которая полностью изучает основное семантическое отображение внутри домена фиксированного шума. Такое разделение сохраняет эффекты гармонизации и поднятия многообразия на протяжении всего преобразования, существенно упрощая изучение унифицированных отображений для разнообразных задач и доменов. Примечательно, что стадия диффузии шума обучается исключительно на обильных, непарных изображениях целевого домена, что значительно повышает эффективность использования данных. Всесторонний теоретический и эмпирический анализ показывает, что DRDD широко совместима с основными диффузионными моделями и последовательно обеспечивает надежный, унифицированный I2I-перевод даже при ограниченном количестве парных данных. Наш код доступен по адресу https://github.com/HKU-HealthAI/DRDD.

English

We propose Decoupled Residual Denoising Diffusion models (DRDD) for unified and data-efficient image-to-image (I2I) translation. While diffusion models have advanced I2I translation in terms of quality and diversity, we uncover a previously under-explored property in diffusion models. Crucially, beyond its conventional role of manifold lifting (i.e., moving data off low-dimensional manifolds), injecting Gaussian noise facilitates domain harmonization by implicitly aligning feature distributions across domains, a property particularly advantageous for unified I2I translation. However, existing diffusion models prematurely erode this harmonization effect, as noise and residuals are simultaneously removed in a single coupled diffusion process. To address this, DRDD decouples the diffusion process into two sequential and independent diffusion stages: (1) a stochastic noise diffusion for domain harmonization and manifold lifting, and (2) a deterministic residual diffusion that learns the core semantic mapping entirely within the fixed-noise domain. This decoupling preserves harmonization and manifold lifting effects throughout the transformation, substantially simplifying the learning of unified mappings across diverse tasks and domains. Notably, the noise diffusion stage is trained exclusively on abundant, unpaired target-domain images, greatly improving data efficiency. Comprehensive theoretical and empirical analysis demonstrates that DRDD is broadly compatible with mainstream diffusion models and consistently delivers robust, unified I2I translation, even under limited paired data. Our code is available at https://github.com/HKU-HealthAI/DRDD.