SpaceTimePilot: Generative Darstellung dynamischer Szenen über Raum und Zeit
SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time
December 31, 2025
papers.authors: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang
cs.AI
papers.abstract
Wir präsentieren SpaceTimePilot, ein Video-Diffusionsmodell, das Raum und Zeit für kontrollierbares generatives Rendering entkoppelt. Gegeben ein monokulares Video kann SpaceTimePilot unabhängig voneinander den Kamerablickwinkel und die Bewegungssequenz innerhalb des generativen Prozesses verändern und die Szene für eine kontinuierliche und beliebige Erkundung über Raum und Zeit hinweg neu rendern. Um dies zu erreichen, führen wir einen effektiven Animations-Zeit-Einbettungsmechanismus im Diffusionsprozess ein, der eine explizite Steuerung der Bewegungssequenz des Ausgangsvideos in Bezug auf die des Quellvideos ermöglicht. Da keine Datensätze gepaarte Videos derselben dynamischen Szene mit kontinuierlichen zeitlichen Variationen bereitstellen, schlagen wir ein einfaches, aber effektives Temporal-Warping-Trainingsschema vor, das bestehende Multi-View-Datensätze zur Nachahmung zeitlicher Unterschiede wiederverwendet. Diese Strategie überwacht effektiv das Modell, um zeitliche Kontrolle zu erlernen und eine robuste Raum-Zeit-Entkopplung zu erreichen. Um die Präzision der dualen Kontrolle weiter zu verbessern, führen wir zwei zusätzliche Komponenten ein: einen verbesserten Kamera-Konditionierungsmechanismus, der eine Änderung der Kamera ab dem ersten Frame ermöglicht, und CamxTime, den ersten synthetischen Raum-Zeit-Rendering-Datensatz mit vollständiger Abdeckung, der vollständig freie Raum-Zeit-Video-Trajektorien innerhalb einer Szene bereitstellt. Gemeinsames Training mit dem Temporal-Warping-Schema und dem CamxTime-Datensatz führt zu einer präziseren zeitlichen Steuerung. Wir evaluieren SpaceTimePilot anhand realer und synthetischer Daten und demonstrieren im Vergleich zu früheren Arbeiten eine klare Raum-Zeit-Entkopplung und starke Ergebnisse. Projektseite: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot
English
We present SpaceTimePilot, a video diffusion model that disentangles space and time for controllable generative rendering. Given a monocular video, SpaceTimePilot can independently alter the camera viewpoint and the motion sequence within the generative process, re-rendering the scene for continuous and arbitrary exploration across space and time. To achieve this, we introduce an effective animation time-embedding mechanism in the diffusion process, allowing explicit control of the output video's motion sequence with respect to that of the source video. As no datasets provide paired videos of the same dynamic scene with continuous temporal variations, we propose a simple yet effective temporal-warping training scheme that repurposes existing multi-view datasets to mimic temporal differences. This strategy effectively supervises the model to learn temporal control and achieve robust space-time disentanglement. To further enhance the precision of dual control, we introduce two additional components: an improved camera-conditioning mechanism that allows altering the camera from the first frame, and CamxTime, the first synthetic space-and-time full-coverage rendering dataset that provides fully free space-time video trajectories within a scene. Joint training on the temporal-warping scheme and the CamxTime dataset yields more precise temporal control. We evaluate SpaceTimePilot on both real-world and synthetic data, demonstrating clear space-time disentanglement and strong results compared to prior work. Project page: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot