ChatPaper.aiChatPaper

SpaceTimePilot: Generatief Renderen van Dynamische Scènes in Ruimte en Tijd

SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

December 31, 2025
Auteurs: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang
cs.AI

Samenvatting

Wij presenteren SpaceTimePilot, een videodiffusiemodel dat ruimte en tijd ontvlecht voor bestuurbaar generatief renderen. Gegeven een monovideo kan SpaceTimePilot onafhankelijk het camerapunt en de bewegingssequentie binnen het generatieve proces aanpassen, waardoor de scène opnieuw wordt gerenderd voor continue en willekeurige verkenning in ruimte en tijd. Om dit te bereiken introduceren we een effectief animatie-tijdinbeddingsmechanisme in het diffusieproces, waarmee de bewegingssequentie van de uitvoervideo expliciet kan worden bestuurd ten opzichte van die van de bronvideo. Aangezien geen enkele dataset gepaarde video's van dezelfde dynamische scène met continue temporele variaties biedt, stellen we een eenvoudig maar effectief trainingsschema voor temporele vervorming voor dat bestaande multi-view datasets hergebruikt om temporele verschillen na te bootsen. Deze strategie begeleidt het model effectief bij het aanleren van temporele controle en het bereiken van robuuste ruimte-tijd-ontvlechting. Om de precisie van dubbele controle verder te verbeteren, introduceren we twee aanvullende componenten: een verbeterd cameraconditioneringsmechanisme dat het wijzigen van de camera vanaf het eerste frame mogelijk maakt, en CamxTime, de eerste synthetische ruimte-tijd-renderdataset met volledige dekking die volledig vrije ruimte-tijd-videotrajecten binnen een scène biedt. Gezamenlijke training op het temporele-vervormingsschema en de CamxTime-dataset resulteert in nauwkeurigere temporele controle. We evalueren SpaceTimePilot op zowel real-world als synthetische data, waarbij duidelijke ruimte-tijd-ontvlechting en sterke resultaten worden aangetoond in vergelijking met eerder werk. Projectpagina: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot
English
We present SpaceTimePilot, a video diffusion model that disentangles space and time for controllable generative rendering. Given a monocular video, SpaceTimePilot can independently alter the camera viewpoint and the motion sequence within the generative process, re-rendering the scene for continuous and arbitrary exploration across space and time. To achieve this, we introduce an effective animation time-embedding mechanism in the diffusion process, allowing explicit control of the output video's motion sequence with respect to that of the source video. As no datasets provide paired videos of the same dynamic scene with continuous temporal variations, we propose a simple yet effective temporal-warping training scheme that repurposes existing multi-view datasets to mimic temporal differences. This strategy effectively supervises the model to learn temporal control and achieve robust space-time disentanglement. To further enhance the precision of dual control, we introduce two additional components: an improved camera-conditioning mechanism that allows altering the camera from the first frame, and CamxTime, the first synthetic space-and-time full-coverage rendering dataset that provides fully free space-time video trajectories within a scene. Joint training on the temporal-warping scheme and the CamxTime dataset yields more precise temporal control. We evaluate SpaceTimePilot on both real-world and synthetic data, demonstrating clear space-time disentanglement and strong results compared to prior work. Project page: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot
PDF112January 4, 2026