ChatPaper.aiChatPaper

NeuralRemaster: Diffusione a Conservazione di Fase per la Generazione Allineata alla Struttura

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

December 4, 2025
Autori: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister
cs.AI

Abstract

La diffusione standard corrompe i dati utilizzando rumore gaussiano i cui coefficienti di Fourier presentano magnitudini e fasi casuali. Sebbene efficace per la generazione incondizionata o text-to-image, la corruzione delle componenti di fase distrugge la struttura spaziale, rendendola inadatta per compiti che richiedono coerenza geometrica, come il re-rendering, il miglioramento di simulazioni e la traduzione image-to-image. Introduciamo la Diffusione a Fase Conservata φ-PD, una riformulazione model-agnostic del processo di diffusione che preserva la fase di input mentre randomizza la magnitudine, consentendo una generazione allineata strutturalmente senza modifiche architetturali o parametri aggiuntivi. Proponiamo inoltre il rumore Strutturato a Selezione di Frequenza (FSS), che fornisce un controllo continuo sulla rigidità strutturale tramite un singolo parametro di taglio in frequenza. φ-PD non aggiunge costi computazionali all'inferenza ed è compatibile con qualsiasi modello di diffusione per immagini o video. In ambiti come il re-rendering fotorealistico e stilizzato, nonché il miglioramento sim-to-real per pianificatori di guida, φ-PD produce risultati controllabili e spazialmente allineati. Applicato al simulatore CARLA, φ-PD migliora le prestazioni del pianificatore CARLA-to-Waymo del 50%. Il metodo è complementare agli approcci di condizionamento esistenti e ampiamente applicabile alla generazione image-to-image e video-to-video. Video, esempi aggiuntivi e codice sono disponibili sulla nostra {pagina del progetto} https://yuzeng-at-tri.github.io/ppd-page/.
English
Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our https://yuzeng-at-tri.github.io/ppd-page/{project page}.
PDF152December 21, 2025