Modelos de Difusión con Eliminación de Ruido Residual Desacoplados para Traducción de Imagen a Imagen Unificada y Eficiente en Datos

Resumen

Proponemos los Modelos de Difusión de Denoising Residual Desacoplado (DRDD, por sus siglas en inglés) para la traducción unificada y eficiente en términos de datos de imagen a imagen (I2I). Si bien los modelos de difusión han avanzado en la traducción I2I en términos de calidad y diversidad, descubrimos una propiedad previamente poco explorada en estos modelos. De manera crucial, más allá de su función convencional de elevación de variedades (es decir, mover datos fuera de variedades de baja dimensionalidad), la inyección de ruido gaussiano facilita la armonización de dominios al alinear implícitamente las distribuciones de características entre dominios, una propiedad particularmente ventajosa para la traducción I2I unificada. Sin embargo, los modelos de difusión existentes erosionan prematuramente este efecto de armonización, ya que el ruido y los residuos se eliminan simultáneamente en un único proceso de difusión acoplado. Para abordar esto, DRDD desacopla el proceso de difusión en dos etapas secuenciales e independientes: (1) una difusión de ruido estocástico para la armonización de dominios y la elevación de variedades, y (2) una difusión residual determinista que aprende la asignación semántica central completamente dentro del dominio de ruido fijo. Este desacoplamiento preserva los efectos de armonización y elevación de variedades a lo largo de la transformación, simplificando sustancialmente el aprendizaje de asignaciones unificadas entre diversas tareas y dominios. Notablemente, la etapa de difusión de ruido se entrena exclusivamente con imágenes abundantes no apareadas del dominio objetivo, lo que mejora enormemente la eficiencia en el uso de datos. Un análisis teórico y empírico exhaustivo demuestra que DRDD es ampliamente compatible con los modelos de difusión convencionales y proporciona de manera consistente una traducción I2I robusta y unificada, incluso con datos apareados limitados. Nuestro código está disponible en https://github.com/HKU-HealthAI/DRDD.

English

We propose Decoupled Residual Denoising Diffusion models (DRDD) for unified and data-efficient image-to-image (I2I) translation. While diffusion models have advanced I2I translation in terms of quality and diversity, we uncover a previously under-explored property in diffusion models. Crucially, beyond its conventional role of manifold lifting (i.e., moving data off low-dimensional manifolds), injecting Gaussian noise facilitates domain harmonization by implicitly aligning feature distributions across domains, a property particularly advantageous for unified I2I translation. However, existing diffusion models prematurely erode this harmonization effect, as noise and residuals are simultaneously removed in a single coupled diffusion process. To address this, DRDD decouples the diffusion process into two sequential and independent diffusion stages: (1) a stochastic noise diffusion for domain harmonization and manifold lifting, and (2) a deterministic residual diffusion that learns the core semantic mapping entirely within the fixed-noise domain. This decoupling preserves harmonization and manifold lifting effects throughout the transformation, substantially simplifying the learning of unified mappings across diverse tasks and domains. Notably, the noise diffusion stage is trained exclusively on abundant, unpaired target-domain images, greatly improving data efficiency. Comprehensive theoretical and empirical analysis demonstrates that DRDD is broadly compatible with mainstream diffusion models and consistently delivers robust, unified I2I translation, even under limited paired data. Our code is available at https://github.com/HKU-HealthAI/DRDD.