NeuralRemaster : Génération par diffusion préservant la phase pour une création structurellement alignée
NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
December 4, 2025
papers.authors: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister
cs.AI
papers.abstract
La diffusion standard corrompt les données en utilisant un bruit gaussien dont les coefficients de Fourier possèdent des amplitudes et des phases aléatoires. Bien qu'efficace pour la génération non conditionnée ou texte-à-image, la corruption des composantes de phase détruit la structure spatiale, la rendant inadaptée aux tâches nécessitant une cohérence géométrique, telles que le re-rendu, l'amélioration de simulation et la traduction image-à-image. Nous présentons φ-PD (Phase-Preserving Diffusion), une reformulation agnostique du modèle du processus de diffusion qui préserve la phase d'entrée tout en randomisant l'amplitude, permettant une génération alignée structurellement sans modifications architecturales ni paramètres supplémentaires. Nous proposons également un bruit à structure sélective fréquentielle (FSS), qui offre un contrôle continu de la rigidité structurelle via un unique paramètre de coupure fréquentielle. φ-PD n'ajoute aucun coût au temps d'inférence et est compatible avec tout modèle de diffusion pour images ou vidéos. Sur des tâches de re-rendu photoréaliste et stylisé, ainsi que d'amélioration sim-to-real pour planificateurs de conduite, φ-PD produit des résultats contrôlables et spatialement alignés. Appliquée au simulateur CARLA, φ-PD améliore les performances du planificateur CARLA-vers-Waymo de 50 %. La méthode est complémentaire aux approches de conditionnement existantes et largement applicable à la génération image-à-image et vidéo-à-vidéo. Les vidéos, exemples supplémentaires et le code sont disponibles sur notre {page du projet} https://yuzeng-at-tri.github.io/ppd-page/.
English
Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our https://yuzeng-at-tri.github.io/ppd-page/{project page}.