SpaceTimePilot: Генеративный рендеринг динамических сцен в пространстве и времени
SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time
December 31, 2025
Авторы: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang
cs.AI
Аннотация
Мы представляем SpaceTimePilot — диффузионную модель для видео, которая разделяет пространство и время для управляемого генеративного рендеринга. Получив моноскопическое видео, SpaceTimePilot может независимо изменять точку обзора камеры и последовательность движения в процессе генерации, перерисовывая сцену для непрерывного и произвольного исследования в пространстве и времени. Для этого мы внедряем эффективный механизм анимационного временного кодирования в диффузионный процесс, позволяющий явно управлять последовательностью движения выходного видео относительно исходного. Поскольку ни один набор данных не предоставляет парные видео одной динамической сцены с непрерывными временными вариациями, мы предлагаем простую, но эффективную схему обучения с временным искажением, которая перепрофилирует существующие мультивидные наборы данных для имитации временных различий. Эта стратегия эффективно обучает модель управлению временем и достижению устойчивого разделения пространства-времени. Для дальнейшего повышения точности двойного управления мы вводим два дополнительных компонента: усовершенствованный механизм кондиционирования по камере, позволяющий изменять ее положение с первого кадра, и CamxTime — первый синтетический набор данных для рендеринга с полным покрытием пространства и времени, предоставляющий полностью свободные пространственно-временные траектории видео внутри сцены. Совместное обучение по схеме временного искажения и набору данных CamxTime дает более точное временное управление. Мы оцениваем SpaceTimePilot на реальных и синтетических данных, демонстрируя четкое разделение пространства-времени и превосходные результаты по сравнению с предыдущими работами. Страница проекта: https://zheninghuang.github.io/Space-Time-Pilot/ Код: https://github.com/ZheningHuang/spacetimepilot
English
We present SpaceTimePilot, a video diffusion model that disentangles space and time for controllable generative rendering. Given a monocular video, SpaceTimePilot can independently alter the camera viewpoint and the motion sequence within the generative process, re-rendering the scene for continuous and arbitrary exploration across space and time. To achieve this, we introduce an effective animation time-embedding mechanism in the diffusion process, allowing explicit control of the output video's motion sequence with respect to that of the source video. As no datasets provide paired videos of the same dynamic scene with continuous temporal variations, we propose a simple yet effective temporal-warping training scheme that repurposes existing multi-view datasets to mimic temporal differences. This strategy effectively supervises the model to learn temporal control and achieve robust space-time disentanglement. To further enhance the precision of dual control, we introduce two additional components: an improved camera-conditioning mechanism that allows altering the camera from the first frame, and CamxTime, the first synthetic space-and-time full-coverage rendering dataset that provides fully free space-time video trajectories within a scene. Joint training on the temporal-warping scheme and the CamxTime dataset yields more precise temporal control. We evaluate SpaceTimePilot on both real-world and synthetic data, demonstrating clear space-time disentanglement and strong results compared to prior work. Project page: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot