SpaceTimePilot: 時空間にわたる動的シーンの生成的レンダリング
SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time
December 31, 2025
著者: Zhening Huang, Hyeonho Jeong, Xuelin Chen, Yulia Gryaditskaya, Tuanfeng Y. Wang, Joan Lasenby, Chun-Hao Huang
cs.AI
要旨
本論文では、空間と時間を分離して制御可能な生成レンダリングを実現するビデオ拡散モデル「SpaceTimePilot」を提案する。単眼ビデオを入力として、SpaceTimePilotは生成プロセス内でカメラ視点と動きのシーケンスを独立に変更し、空間と時間にわたる連続的かつ任意の探索のためにシーンを再レンダリングすることができる。これを実現するため、拡散過程に効果的なアニメーション時間埋め込みメカニズムを導入し、ソースビデオに対する出力ビデオの動きシーケンスの明示的な制御を可能にした。同一の動的シーンにおける連続的時間変動を持つペアビデオを提供するデータセットが存在しないため、既存の多視点データセットを時間差を模倣するように再利用する、簡潔かつ効果的な時間ワーピング訓練スキームを提案する。この戦略は、モデルが時間制御を学習し、ロバストな時空間分離を達成することを効果的に監督する。二重制御の精度をさらに高めるため、2つの追加コンポーネントを導入する:最初のフレームからカメラを変更可能にする改良されたカメラ条件付けメカニズムと、シーン内で完全に自由な時空間ビデオ軌道を提供する初の合成的時空間フルカバレッジレンダリングデータセット「CamxTime」である。時間ワーピングスキームとCamxTimeデータセットによる共同訓練は、より精密な時間制御を実現する。SpaceTimePilotを実世界データおよび合成データで評価し、従来研究と比較して明瞭な時空間分離と強力な結果を示す。プロジェクトページ: https://zheninghuang.github.io/Space-Time-Pilot/ コード: https://github.com/ZheningHuang/spacetimepilot
English
We present SpaceTimePilot, a video diffusion model that disentangles space and time for controllable generative rendering. Given a monocular video, SpaceTimePilot can independently alter the camera viewpoint and the motion sequence within the generative process, re-rendering the scene for continuous and arbitrary exploration across space and time. To achieve this, we introduce an effective animation time-embedding mechanism in the diffusion process, allowing explicit control of the output video's motion sequence with respect to that of the source video. As no datasets provide paired videos of the same dynamic scene with continuous temporal variations, we propose a simple yet effective temporal-warping training scheme that repurposes existing multi-view datasets to mimic temporal differences. This strategy effectively supervises the model to learn temporal control and achieve robust space-time disentanglement. To further enhance the precision of dual control, we introduce two additional components: an improved camera-conditioning mechanism that allows altering the camera from the first frame, and CamxTime, the first synthetic space-and-time full-coverage rendering dataset that provides fully free space-time video trajectories within a scene. Joint training on the temporal-warping scheme and the CamxTime dataset yields more precise temporal control. We evaluate SpaceTimePilot on both real-world and synthetic data, demonstrating clear space-time disentanglement and strong results compared to prior work. Project page: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot