ChatPaper.aiChatPaper

NeuralRemaster: 構造整合性を保った生成のための位相保存拡散モデル

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

December 4, 2025
著者: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister
cs.AI

要旨

標準的な拡散モデルは、フーリエ係数の振幅と位相がランダムなガウスノイズを用いてデータを劣化させる。これは無条件生成やテキストからの画像生成には有効だが、位相成分の劣化は空間構造を破壊するため、再レンダリング、シミュレーション強化、画像間変換など幾何学的整合性を要するタスクには不向きである。本研究では、拡散過程のモデル非依存的な再定式化である位相保存拡散(φ-PD)を提案する。これは入力位相を保持しつつ振幅をランダム化することで、構造変更や追加パラメータなしに構造整合性のある生成を実現する。さらに、単一の周波数カットオフパラメータにより構造的剛性を連続的に制御する周波数選択的構造化(FSS)ノイズを提案する。φ-PDは推論時のコストを追加せず、画像や動画のあらゆる拡散モデルと互換性がある。写実的・様式的な再レンダリング、および運転プランナーのためのシミュレーション実環境強化において、φ-PDは制御可能で空間的に整合した結果を生成する。CARLAシミュレータに適用した場合、φ-PDはCARLAからWaymoプランナーへの性能を50%向上させる。本手法は既存の条件付け手法と相補的であり、画像間・動画間生成に広く適用可能である。動画、追加事例、コードはプロジェクトページ(https://yuzeng-at-tri.github.io/ppd-page/)で公開されている。
English
Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our https://yuzeng-at-tri.github.io/ppd-page/{project page}.
PDF41December 6, 2025