Modèles de diffusion à débruitage résiduel découplés pour une traduction d'image à image unifiée et efficace en données

Résumé

Nous proposons les modèles de diffusion résiduelle découplée (Decoupled Residual Denoising Diffusion, DRDD) pour la traduction image-à-image (I2I) unifiée et efficace en termes de données. Bien que les modèles de diffusion aient fait progresser la traduction I2I en termes de qualité et de diversité, nous mettons en lumière une propriété jusqu'alors peu explorée dans ces modèles. De manière cruciale, au-delà de son rôle conventionnel de rehaussement de variété (c'est-à-dire déplacer les données hors des variétés de faible dimension), l'injection de bruit gaussien facilite l'harmonisation des domaines en alignant implicitement les distributions de caractéristiques entre eux, une propriété particulièrement avantageuse pour la traduction I2I unifiée. Cependant, les modèles de diffusion existants érodent prématurément cet effet d'harmonisation, car le bruit et les résidus sont simultanément éliminés dans un seul processus de diffusion couplé. Pour y remédier, DRDD découple le processus de diffusion en deux étapes séquentielles et indépendantes : (1) une diffusion de bruit stochastique pour l'harmonisation des domaines et le rehaussement de variété, et (2) une diffusion résiduelle déterministe qui apprend le mappage sémantique principal entièrement dans le domaine à bruit fixe. Ce découplage préserve les effets d'harmonisation et de rehaussement de variété tout au long de la transformation, simplifiant considérablement l'apprentissage de mappages unifiés dans diverses tâches et domaines. Notamment, l'étape de diffusion de bruit est entraînée exclusivement sur des images abondantes et non appariées du domaine cible, améliorant ainsi considérablement l'efficacité des données. Une analyse théorique et empirique complète montre que DRDD est largement compatible avec les modèles de diffusion courants et produit de manière constante une traduction I2I robuste et unifiée, même avec des données appariées limitées. Notre code est disponible à l'adresse https://github.com/HKU-HealthAI/DRDD.

English

We propose Decoupled Residual Denoising Diffusion models (DRDD) for unified and data-efficient image-to-image (I2I) translation. While diffusion models have advanced I2I translation in terms of quality and diversity, we uncover a previously under-explored property in diffusion models. Crucially, beyond its conventional role of manifold lifting (i.e., moving data off low-dimensional manifolds), injecting Gaussian noise facilitates domain harmonization by implicitly aligning feature distributions across domains, a property particularly advantageous for unified I2I translation. However, existing diffusion models prematurely erode this harmonization effect, as noise and residuals are simultaneously removed in a single coupled diffusion process. To address this, DRDD decouples the diffusion process into two sequential and independent diffusion stages: (1) a stochastic noise diffusion for domain harmonization and manifold lifting, and (2) a deterministic residual diffusion that learns the core semantic mapping entirely within the fixed-noise domain. This decoupling preserves harmonization and manifold lifting effects throughout the transformation, substantially simplifying the learning of unified mappings across diverse tasks and domains. Notably, the noise diffusion stage is trained exclusively on abundant, unpaired target-domain images, greatly improving data efficiency. Comprehensive theoretical and empirical analysis demonstrates that DRDD is broadly compatible with mainstream diffusion models and consistently delivers robust, unified I2I translation, even under limited paired data. Our code is available at https://github.com/HKU-HealthAI/DRDD.