ChatPaper.aiChatPaper

SpaceTimePilot: Renderizado Generativo de Escenas Dinámicas a través del Espacio y el Tiempo

SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

December 31, 2025
Autores: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang
cs.AI

Resumen

Presentamos SpaceTimePilot, un modelo de difusión de vídeo que desvincula el espacio y el tiempo para un renderizado generativo controlable. Dado un vídeo monocular, SpaceTimePilot puede alterar de forma independiente el punto de vista de la cámara y la secuencia de movimiento dentro del proceso generativo, re-renderizando la escena para una exploración continua y arbitraria a través del espacio y el tiempo. Para lograr esto, introducimos un mecanismo efectivo de incrustación temporal de animación en el proceso de difusión, permitiendo el control explícito de la secuencia de movimiento del vídeo de salida con respecto a la del vídeo fuente. Dado que ningún conjunto de datos proporciona vídeos emparejados de la misma escena dinámica con variaciones temporales continuas, proponemos un esquema de entrenamiento de deformación temporal simple pero efectivo que readapta conjuntos de datos multivisión existentes para imitar diferencias temporales. Esta estrategia supervisa eficazmente al modelo para que aprenda el control temporal y logre una robusta desvinculación espacio-temporal. Para mejorar aún más la precisión del control dual, introducimos dos componentes adicionales: un mecanismo mejorado de condicionamiento por cámara que permite alterar la cámara desde el primer fotograma, y CamxTime, el primer conjunto de datos de renderizado sintético de cobertura completa en espacio y tiempo que proporciona trayectorias de vídeo espacio-temporales completamente libres dentro de una escena. El entrenamiento conjunto en el esquema de deformación temporal y el conjunto de datos CamxTime produce un control temporal más preciso. Evaluamos SpaceTimePilot tanto en datos del mundo real como sintéticos, demostrando una clara desvinculación espacio-temporal y resultados sólidos en comparación con trabajos anteriores. Página del proyecto: https://zheninghuang.github.io/Space-Time-Pilot/ Código: https://github.com/ZheningHuang/spacetimepilot
English
We present SpaceTimePilot, a video diffusion model that disentangles space and time for controllable generative rendering. Given a monocular video, SpaceTimePilot can independently alter the camera viewpoint and the motion sequence within the generative process, re-rendering the scene for continuous and arbitrary exploration across space and time. To achieve this, we introduce an effective animation time-embedding mechanism in the diffusion process, allowing explicit control of the output video's motion sequence with respect to that of the source video. As no datasets provide paired videos of the same dynamic scene with continuous temporal variations, we propose a simple yet effective temporal-warping training scheme that repurposes existing multi-view datasets to mimic temporal differences. This strategy effectively supervises the model to learn temporal control and achieve robust space-time disentanglement. To further enhance the precision of dual control, we introduce two additional components: an improved camera-conditioning mechanism that allows altering the camera from the first frame, and CamxTime, the first synthetic space-and-time full-coverage rendering dataset that provides fully free space-time video trajectories within a scene. Joint training on the temporal-warping scheme and the CamxTime dataset yields more precise temporal control. We evaluate SpaceTimePilot on both real-world and synthetic data, demonstrating clear space-time disentanglement and strong results compared to prior work. Project page: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot
PDF50January 2, 2026