NeuralRemaster: Faseneutrale diffusie voor structuurgerichte generatie
NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
December 4, 2025
Auteurs: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister
cs.AI
Samenvatting
Standaard diffusie corrumpeert gegevens met Gaussische ruis waarvan de Fourier-coëfficiënten willekeurige magnitudes en willekeurige fasen hebben. Hoewel effectief voor onvoorwaardelijke generatie of tekst-naar-beeldgeneratie, vernietigt het corrumperen van fasecomponenten de ruimtelijke structuur, waardoor het ongeschikt is voor taken die geometrische consistentie vereisen, zoals herweergave, simulatieverbetering en beeld-naar-beeldvertaling. Wij introduceren Fase-Behoudende Diffusie (φ-PD), een model-agnostische herformulering van het diffusieproces die de invoerfase behoudt terwijl de magnitude wordt gerandomiseerd, waardoor structuurlijnende generatie mogelijk wordt zonder architectuurwijzigingen of extra parameters. Wij stellen verder Frequentie-Selectieve Gestructureerde (FSS) ruis voor, die continue controle over structurele rigiditeit biedt via een enkele frequentie-afsnijparameter. φ-PD voegt geen inferentietijdkosten toe en is compatibel met elk diffusiemodel voor beelden of video's. Bij fotorealistische en gestileerde herweergave, evenals simulatie-naar-realiteit-verbetering voor rijplanners, produceert φ-PD beheersbare, ruimtelijk uitgelijnde resultaten. Toegepast op de CARLA-simulator verbetert φ-PD de CARLA-naar-Waymo plannerprestatie met 50%. De methode is complementair aan bestaande conditioneringsbenaderingen en breed toepasbaar op beeld-naar-beeld- en video-naar-videogeneratie. Video's, aanvullende voorbeelden en code zijn beschikbaar op onze {projectpagina: https://yuzeng-at-tri.github.io/ppd-page/}.
English
Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our https://yuzeng-at-tri.github.io/ppd-page/{project page}.