SpaceTimePilot: Rendering Generativo di Scene Dinamiche attraverso Spazio e Tempo

Abstract

Presentiamo SpaceTimePilot, un modello di diffusione video che dissocia lo spazio e il tempo per il rendering generativo controllabile. Dato un video monoculare, SpaceTimePilot può alterare indipendentemente il punto di vista della telecamera e la sequenza di movimento all'interno del processo generativo, re-renderizzando la scena per un'esplorazione continua e arbitraria attraverso lo spazio e il tempo. Per ottenere questo risultato, introduciamo un efficace meccanismo di incorporamento temporale per l'animazione nel processo di diffusione, che consente un controllo esplicito della sequenza di movimento del video di output rispetto a quella del video sorgente. Poiché nessun dataset fornisce video accoppiati della stessa scena dinamica con variazioni temporali continue, proponiamo uno schema di addestramento di temporal-warping semplice ma efficace che riutilizza dataset multi-view esistenti per simulare differenze temporali. Questa strategia supervisiona efficacemente il modello per apprendere il controllo temporale e raggiungere una robusta dissociazione spazio-temporale. Per migliorare ulteriormente la precisione del controllo duale, introduciamo due componenti aggiuntive: un meccanismo migliorato di condizionamento della telecamera che consente di alterare la telecamera dal primo fotogramma, e CamxTime, il primo dataset sintetico di rendering a copertura completa spazio-temporale che fornisce traiettorie video spazio-temporali completamente libere all'interno di una scena. L'addestramento congiunto sullo schema di temporal-warping e sul dataset CamxTime produce un controllo temporale più preciso. Valutiamo SpaceTimePilot su dati sia del mondo reale che sintetici, dimostrando una chiara dissociazione spazio-temporale e risultati solidi rispetto ai lavori precedenti. Pagina del progetto: https://zheninghuang.github.io/Space-Time-Pilot/ Codice: https://github.com/ZheningHuang/spacetimepilot

English

We present SpaceTimePilot, a video diffusion model that disentangles space and time for controllable generative rendering. Given a monocular video, SpaceTimePilot can independently alter the camera viewpoint and the motion sequence within the generative process, re-rendering the scene for continuous and arbitrary exploration across space and time. To achieve this, we introduce an effective animation time-embedding mechanism in the diffusion process, allowing explicit control of the output video's motion sequence with respect to that of the source video. As no datasets provide paired videos of the same dynamic scene with continuous temporal variations, we propose a simple yet effective temporal-warping training scheme that repurposes existing multi-view datasets to mimic temporal differences. This strategy effectively supervises the model to learn temporal control and achieve robust space-time disentanglement. To further enhance the precision of dual control, we introduce two additional components: an improved camera-conditioning mechanism that allows altering the camera from the first frame, and CamxTime, the first synthetic space-and-time full-coverage rendering dataset that provides fully free space-time video trajectories within a scene. Joint training on the temporal-warping scheme and the CamxTime dataset yields more precise temporal control. We evaluate SpaceTimePilot on both real-world and synthetic data, demonstrating clear space-time disentanglement and strong results compared to prior work. Project page: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot

SpaceTimePilot: Rendering Generativo di Scene Dinamiche attraverso Spazio e Tempo

SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

Abstract

Support