ChatPaper.aiChatPaper

SpaceTimePilot: 시공간을 가로지르는 동적 장면의 생성적 렌더링

SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

December 31, 2025
저자: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang
cs.AI

초록

공간과 시간을 분리하여 제어 가능한 생성적 렌더링을 구현하는 비디오 확산 모델인 SpaceTimePilot을 제안합니다. SpaceTimePilot은 단안 비디오가 주어지면 생성 과정 내에서 카메라 시점과 모션 시퀀스를 독립적으로 변경하여, 공간과 시간을 가로지르는 연속적이고 자유로운 탐색을 위해 장면을 재렌더링할 수 있습니다. 이를 위해 확산 과정에 효과적인 애니메이션 시간 임베딩 메커니즘을 도입하여 소스 비디오 대비 출력 비디오의 모션 시퀀스를 명시적으로 제어할 수 있도록 합니다. 연속적인 시간 변화를 갖는 동일한 동적 장면의 짝을 이룬 비디오 데이터셋이 존재하지 않기 때문에, 기존的多視点 데이터셋을 시간 차이를 모방하도록 재활용하는 간단하면서 효과적인 시간 왜핑 훈련 기법을 제안합니다. 이 전략은 모델이 시간 제어를 학습하고 강력한 시공간 분리를 달성하도록 효과적으로 지도합니다. 이중 제어의 정밀도를 더욱 향상시키기 위해 두 가지 추가 구성 요소를 도입합니다: 첫 번째 프레임부터 카메라 변경을 허용하는 개선된 카메라 조건 설정 메커니즘과, 장면 내에서 완전히 자유로운 시공간 비디오 궤적을 제공하는 최초의 합성 시공간 전체 커버리지 렌더링 데이터셋인 CamxTime입니다. 시간 왜핑 기법과 CamxTime 데이터셋에 대한 공동 훈련은 더 정밀한 시간 제어를 가능하게 합니다. SpaceTimePilot을 실제 및 합성 데이터에 대해 평가하여, 기존 연구 대비 명확한 시공간 분리와 우수한 결과를 입증합니다. 프로젝트 페이지: https://zheninghuang.github.io/Space-Time-Pilot/ 코드: https://github.com/ZheningHuang/spacetimepilot
English
We present SpaceTimePilot, a video diffusion model that disentangles space and time for controllable generative rendering. Given a monocular video, SpaceTimePilot can independently alter the camera viewpoint and the motion sequence within the generative process, re-rendering the scene for continuous and arbitrary exploration across space and time. To achieve this, we introduce an effective animation time-embedding mechanism in the diffusion process, allowing explicit control of the output video's motion sequence with respect to that of the source video. As no datasets provide paired videos of the same dynamic scene with continuous temporal variations, we propose a simple yet effective temporal-warping training scheme that repurposes existing multi-view datasets to mimic temporal differences. This strategy effectively supervises the model to learn temporal control and achieve robust space-time disentanglement. To further enhance the precision of dual control, we introduce two additional components: an improved camera-conditioning mechanism that allows altering the camera from the first frame, and CamxTime, the first synthetic space-and-time full-coverage rendering dataset that provides fully free space-time video trajectories within a scene. Joint training on the temporal-warping scheme and the CamxTime dataset yields more precise temporal control. We evaluate SpaceTimePilot on both real-world and synthetic data, demonstrating clear space-time disentanglement and strong results compared to prior work. Project page: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot
PDF50January 2, 2026