ChatPaper.aiChatPaper

NeuralRemaster: Difusión de Conservación de Fase para Generación con Estructura Alineada

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

December 4, 2025
Autores: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister
cs.AI

Resumen

La difusión estándar corrompe los datos utilizando ruido gaussiano cuyos coeficientes de Fourier tienen magnitudes aleatorias y fases aleatorias. Aunque es efectiva para generación incondicional o texto-a-imagen, corromper los componentes de fase destruye la estructura espacial, lo que la hace inadecuada para tareas que requieren consistencia geométrica, como el re-renderizado, la mejora de simulaciones y la traducción imagen-a-imagen. Presentamos φ-PD (Difusión de Preservación de Fase), una reformulación independiente del modelo del proceso de difusión que preserva la fase de entrada mientras aleatoriza la magnitud, permitiendo generación alineada estructuralmente sin cambios arquitectónicos ni parámetros adicionales. Además, proponemos ruido Estructurado de Frecuencia Selectiva (FSS), que proporciona control continuo sobre la rigidez estructural mediante un único parámetro de corte de frecuencia. φ-PD no añade costo en tiempo de inferencia y es compatible con cualquier modelo de difusión para imágenes o videos. En re-renderizado fotorrealista y estilizado, así como en mejora de simulación-a-realidad para planificadores de conducción, φ-PD produce resultados controlables y espacialmente alineados. Cuando se aplica al simulador CARLA, φ-PD mejora el rendimiento del planificador CARLA-a-Waymo en un 50%. El método es complementario a los enfoques de condicionamiento existentes y ampliamente aplicable a generación imagen-a-imagen y video-a-video. Videos, ejemplos adicionales y código están disponibles en nuestra {página del proyecto} https://yuzeng-at-tri.github.io/ppd-page/.
English
Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our https://yuzeng-at-tri.github.io/ppd-page/{project page}.
PDF41December 6, 2025