Entkoppelte Residual-Entrauschungs-Diffusionsmodelle für einheitliche und dateneffiziente Bild-zu-Bild-Übersetzung

Zusammenfassung

Wir stellen Decoupled Residual Denoising Diffusion Models (DRDD) für eine vereinheitlichte und dateneffiziente Bild-zu-Bild (I2I) Übersetzung vor. Obwohl Diffusionsmodelle die I2I-Übersetzung hinsichtlich Qualität und Diversität vorangebracht haben, decken wir eine bisher wenig untersuchte Eigenschaft von Diffusionsmodellen auf. Entscheidend ist, dass die Injektion von Gaußschem Rauschen über ihre konventionelle Rolle der Mannigfaltigkeitsanhebung (d.h. das Verschieben von Daten aus niedrigdimensionalen Mannigfaltigkeiten) hinaus die Domänenharmonisierung durch implizite Angleichung von Merkmalsverteilungen über Domänen hinweg ermöglicht – eine Eigenschaft, die besonders vorteilhaft für die vereinheitlichte I2I-Übersetzung ist. Allerdings schwächen bestehende Diffusionsmodelle diese Harmonisierungswirkung vorzeitig ab, da Rauschen und Residuen in einem einzigen gekoppelten Diffusionsprozess gleichzeitig entfernt werden. Um dies zu adressieren, entkoppelt DRDD den Diffusionsprozess in zwei aufeinanderfolgende und unabhängige Diffusionsstufen: (1) eine stochastische Rauschdiffusion zur Domänenharmonisierung und Mannigfaltigkeitsanhebung und (2) eine deterministische Residuumsdiffusion, die die semantische Kernabbildung vollständig innerhalb der rauschfixierten Domäne erlernt. Diese Entkopplung bewahrt die Harmonisierung und Mannigfaltigkeitsanhebung während der gesamten Transformation und vereinfacht erheblich das Erlernen vereinheitlichter Abbildungen über verschiedene Aufgaben und Domänen hinweg. Bemerkenswerterweise wird die Rauschdiffusionsstufe ausschließlich auf reichlich vorhandenen, ungepaarten Bildern der Zieldomäne trainiert, was die Dateneffizienz deutlich verbessert. Umfassende theoretische und empirische Analysen zeigen, dass DRDD weitgehend mit gängigen Diffusionsmodellen kompatibel ist und auch bei begrenzt gepaarten Daten konsistent robuste, vereinheitlichte I2I-Übersetzungen liefert. Unser Code ist verfügbar unter https://github.com/HKU-HealthAI/DRDD.

English

We propose Decoupled Residual Denoising Diffusion models (DRDD) for unified and data-efficient image-to-image (I2I) translation. While diffusion models have advanced I2I translation in terms of quality and diversity, we uncover a previously under-explored property in diffusion models. Crucially, beyond its conventional role of manifold lifting (i.e., moving data off low-dimensional manifolds), injecting Gaussian noise facilitates domain harmonization by implicitly aligning feature distributions across domains, a property particularly advantageous for unified I2I translation. However, existing diffusion models prematurely erode this harmonization effect, as noise and residuals are simultaneously removed in a single coupled diffusion process. To address this, DRDD decouples the diffusion process into two sequential and independent diffusion stages: (1) a stochastic noise diffusion for domain harmonization and manifold lifting, and (2) a deterministic residual diffusion that learns the core semantic mapping entirely within the fixed-noise domain. This decoupling preserves harmonization and manifold lifting effects throughout the transformation, substantially simplifying the learning of unified mappings across diverse tasks and domains. Notably, the noise diffusion stage is trained exclusively on abundant, unpaired target-domain images, greatly improving data efficiency. Comprehensive theoretical and empirical analysis demonstrates that DRDD is broadly compatible with mainstream diffusion models and consistently delivers robust, unified I2I translation, even under limited paired data. Our code is available at https://github.com/HKU-HealthAI/DRDD.