ChatPaper.aiChatPaper

네럴리마스터: 구조 정렬 생성을 위한 위상 보존 확산 모델

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

December 4, 2025
저자: Yu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister
cs.AI

초록

표준 확산은 푸리에 계수의 크기와 위상이 무작위인 가우시안 노이즈를 사용하여 데이터를 손상시킵니다. 이는 무조건 생성이나 텍스트-이미지 생성에는 효과적이지만, 위상 성분을 손상시키면 공간 구조가 파괴되어 재렌더링, 시뮬레이션 향상, 이미지-이미지 변환 등 기하학적 일관성이 필요한 작업에는 적합하지 않습니다. 우리는 위상 보존 확산(Phase-Preserving Diffusion, φ-PD)을 소개합니다. 이는 모델에 독립적인 확산 과정의 재구성으로, 입력 위상을 보존하면서 크기만 무작위화하여 아키텍처 변경이나 추가 매개변수 없이 구조에 정렬된 생성이 가능하게 합니다. 또한 단일 주파수 차단 매개변수를 통해 구조적 강성을 연속적으로 제어하는 주파수 선택적 구조(Frequency-Selective Structured, FSS) 노이즈를 제안합니다. φ-PD는 추론 시간 비용을 추가하지 않으며 이미지나 비디오를 위한 모든 확산 모델과 호환됩니다. 사실적 및 스타일화된 재렌더링과 운전 플래너를 위한 시뮬레이션-현실 향상 작업에서 φ-PD는 제어 가능하고 공간적으로 정렬된 결과를 생성합니다. CARLA 시뮬레이터에 적용했을 때, φ-PD는 CARLA-to-Waymo 플래너 성능을 50% 향상시켰습니다. 이 방법은 기존 조건 설정 접근법을 보완하며 이미지-이미지 및 비디오-비디오 생성에 광범위하게 적용 가능합니다. 비디오, 추가 예시 및 코드는 우리의 https://yuzeng-at-tri.github.io/ppd-page/{프로젝트 페이지}에서 확인할 수 있습니다.
English
Standard diffusion corrupts data using Gaussian noise whose Fourier coefficients have random magnitudes and random phases. While effective for unconditional or text-to-image generation, corrupting phase components destroys spatial structure, making it ill-suited for tasks requiring geometric consistency, such as re-rendering, simulation enhancement, and image-to-image translation. We introduce Phase-Preserving Diffusion φ-PD, a model-agnostic reformulation of the diffusion process that preserves input phase while randomizing magnitude, enabling structure-aligned generation without architectural changes or additional parameters. We further propose Frequency-Selective Structured (FSS) noise, which provides continuous control over structural rigidity via a single frequency-cutoff parameter. φ-PD adds no inference-time cost and is compatible with any diffusion model for images or videos. Across photorealistic and stylized re-rendering, as well as sim-to-real enhancement for driving planners, φ-PD produces controllable, spatially aligned results. When applied to the CARLA simulator, φ-PD improves CARLA-to-Waymo planner performance by 50\%. The method is complementary to existing conditioning approaches and broadly applicable to image-to-image and video-to-video generation. Videos, additional examples, and code are available on our https://yuzeng-at-tri.github.io/ppd-page/{project page}.
PDF41December 6, 2025