NeuralRemaster: Phasenerhaltende Diffusion für strukturausgerichtete Generierung
NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
December 4, 2025
papers.authors: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister
cs.AI
papers.abstract
Standard Diffusion korrumpiert Daten mittels Gaußschen Rauschens, dessen Fourier-Koeffizienten zufällige Beträge und zufällige Phasen aufweisen. Obwohl effektiv für unkonditionelle oder Text-zu-Bild-Generierung, zerstört die Korrumpierung der Phasenkomponenten die räumliche Struktur, was es für Aufgaben ungeeignet macht, die geometrische Konsistenz erfordern, wie Neu-Rendering, Simulationsverbesserung und Bild-zu-Bild-Übersetzung. Wir führen Phase-Preserving Diffusion (φ-PD) ein, eine modellagnostische Neuformulierung des Diffusionsprozesses, die die Eingabephase erhält während die Beträge randomisiert werden. Dies ermöglicht strukturausgerichtete Generierung ohne Architekturänderungen oder zusätzliche Parameter. Wir schlagen weiterhin Frequency-Selective Structured (FSS) Rauschen vor, das über einen einzigen Frequenz-Grenzwert-Parameter kontinuierliche Kontrolle über strukturelle Rigidität bietet. φ-PD verursacht keine Inferenzzeit-Kosten und ist kompatibel mit beliebigen Diffusionsmodellen für Bilder oder Videos. In photorealistischem und stilisiertem Neu-Rendering sowie in Sim-to-Real-Verbesserungen für Fahrplaner erzeugt φ-PD kontrollierbare, räumlich ausgerichtete Ergebnisse. Bei Anwendung auf den CARLA-Simulator verbessert φ-PD die CARLA-zu-Waymo Planer-Leistung um 50%. Die Methode ergänzt bestehende Konditionierungsansätze und ist breit anwendbar für Bild-zu-Bild- und Video-zu-Video-Generierung. Videos, zusätzliche Beispiele und Code sind auf unserer https://yuzeng-at-tri.github.io/ppd-page/{Projektseite} verfügbar.
English
Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our https://yuzeng-at-tri.github.io/ppd-page/{project page}.