NeuralRemaster: Difusão com Preservação de Fase para Geração com Alinhamento Estrutural
NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
December 4, 2025
Autores: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister
cs.AI
Resumo
A difusão padrão corrompe os dados usando ruído gaussiano cujos coeficientes de Fourier possuem magnitudes aleatórias e fases aleatórias. Embora eficaz para geração incondicional ou texto-para-imagem, a corrupção dos componentes de fase destrói a estrutura espacial, tornando-a inadequada para tarefas que exigem consistência geométrica, como rerrenderização, aprimoramento de simulação e tradução imagem-para-imagem. Apresentamos a Difusão com Preservação de Fase (φ-PD), uma reformulação independente de modelo do processo de difusão que preserva a fase de entrada enquanto randomiza a magnitude, permitindo geração alinhada estruturalmente sem alterações arquiteturais ou parâmetros adicionais. Propomos ainda o ruído Estrutural Seletivo em Frequência (FSS), que oferece controle contínuo sobre a rigidez estrutural por meio de um único parâmetro de corte de frequência. A φ-PD não adiciona custo computacional durante a inferência e é compatível com qualquer modelo de difusão para imagens ou vídeos. Em tarefas de rerrenderização fotorrealista e estilizada, bem como no aprimoramento sim-para-real para planejadores de condução, a φ-PD produz resultados controláveis e espacialmente alinhados. Quando aplicada ao simulador CARLA, a φ-PD melhora em 50\% o desempenho do planejador CARLA-para-Waymo. O método é complementar às abordagens de condicionamento existentes e amplamente aplicável à geração imagem-para-imagem e vídeo-para-vídeo. Vídeos, exemplos adicionais e código estão disponíveis em nossa {página do projeto} https://yuzeng-at-tri.github.io/ppd-page/.
English
Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our https://yuzeng-at-tri.github.io/ppd-page/{project page}.