Modelos de Difusão com Remoção de Ruído Residual Desacoplados para Tradução de Imagem para Imagem Unificada e Eficiente em Dados

Resumo

Propomos Modelos de Difusão com Remoção de Ruído Residual Desacoplada (DRDD) para tradução imagem-para-imagem (I2I) unificada e eficiente em termos de dados. Embora os modelos de difusão tenham avançado a tradução I2I em termos de qualidade e diversidade, revelamos uma propriedade anteriormente pouco explorada nesses modelos. Crucialmente, para além do seu papel convencional de elevação de variedade (i.e., mover dados para fora de variedades de baixa dimensão), a injeção de ruído Gaussiano facilita a harmonização de domínio ao alinhar implicitamente as distribuições de características entre domínios, uma propriedade particularmente vantajosa para a tradução I2I unificada. No entanto, os modelos de difusão existentes erosionam prematuramente este efeito de harmonização, uma vez que o ruído e os resíduos são simultaneamente removidos num único processo de difusão acoplado. Para resolver isto, o DRDD desacopla o processo de difusão em duas etapas sequenciais e independentes: (1) uma difusão estocástica de ruído para harmonização de domínio e elevação de variedade, e (2) uma difusão residual determinística que aprende o mapeamento semântico central inteiramente dentro do domínio de ruído fixo. Este desacoplamento preserva os efeitos de harmonização e elevação de variedade ao longo da transformação, simplificando substancialmente a aprendizagem de mapeamentos unificados através de tarefas e domínios diversos. Notavelmente, a fase de difusão de ruído é treinada exclusivamente em abundantes imagens não emparelhadas do domínio alvo, melhorando grandemente a eficiência de dados. Uma análise teórica e empírica abrangente demonstra que o DRDD é amplamente compatível com modelos de difusão mainstream e fornece consistentemente uma tradução I2I robusta e unificada, mesmo sob dados emparelhados limitados. O nosso código está disponível em https://github.com/HKU-HealthAI/DRDD.

English

We propose Decoupled Residual Denoising Diffusion models (DRDD) for unified and data-efficient image-to-image (I2I) translation. While diffusion models have advanced I2I translation in terms of quality and diversity, we uncover a previously under-explored property in diffusion models. Crucially, beyond its conventional role of manifold lifting (i.e., moving data off low-dimensional manifolds), injecting Gaussian noise facilitates domain harmonization by implicitly aligning feature distributions across domains, a property particularly advantageous for unified I2I translation. However, existing diffusion models prematurely erode this harmonization effect, as noise and residuals are simultaneously removed in a single coupled diffusion process. To address this, DRDD decouples the diffusion process into two sequential and independent diffusion stages: (1) a stochastic noise diffusion for domain harmonization and manifold lifting, and (2) a deterministic residual diffusion that learns the core semantic mapping entirely within the fixed-noise domain. This decoupling preserves harmonization and manifold lifting effects throughout the transformation, substantially simplifying the learning of unified mappings across diverse tasks and domains. Notably, the noise diffusion stage is trained exclusively on abundant, unpaired target-domain images, greatly improving data efficiency. Comprehensive theoretical and empirical analysis demonstrates that DRDD is broadly compatible with mainstream diffusion models and consistently delivers robust, unified I2I translation, even under limited paired data. Our code is available at https://github.com/HKU-HealthAI/DRDD.