NeuralRemaster: Фазосохраняющая диффузия для структурно-согласованной генерации
NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation
December 4, 2025
Авторы: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister
cs.AI
Аннотация
Стандартная диффузия искажает данные с помощью гауссовского шума, чьи коэффициенты Фурье имеют случайные амплитуды и случайные фазы. Хотя этот подход эффективен для безусловной генерации или генерации по тексту, искажение фазовых компонентов разрушает пространственную структуру, что делает его непригодным для задач, требующих геометрической согласованности, таких как повторный рендеринг, улучшение симуляций и трансляция изображение-в-изображение. Мы представляем Фазо-Сохраняющую Диффузию (φ-PD), модель-агностическую переформулировку процесса диффузии, которая сохраняет фазу входного сигнала, рандомизируя амплитуду, что позволяет осуществлять структурно-выровненную генерацию без изменений архитектуры или дополнительных параметров. Мы также предлагаем Частотно-Селективный Структурированный (FSS) шум, который обеспечивает непрерывный контроль над структурной жесткостью с помощью единственного параметра частотного среза. φ-PD не добавляет затрат на время вывода и совместима с любой диффузионной моделью для изображений или видео. В задачах фотореалистичного и стилизованного повторного рендеринга, а также в улучшении симуляций для планировщиков движения, φ-PD дает контролируемые, пространственно выровненные результаты. При применении к симулятору CARLA, φ-PD улучшает производительность планировщика CARLA-to-Waymo на 50%. Метод является дополнением к существующим подходам кондиционирования и широко применим для генерации изображение-в-изображение и видео-в-видео. Видео, дополнительные примеры и код доступны на нашей https://yuzeng-at-tri.github.io/ppd-page/{странице проекта}.
English
Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our https://yuzeng-at-tri.github.io/ppd-page/{project page}.