ChatPaper.aiChatPaper

バレットタイム:映像生成における時間とカメラ姿勢の分離制御

BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

December 4, 2025
著者: Yiming Wang, Qihang Zhang, Shengqu Cai, Tong Wu, Jan Ackermann, Zhengfei Kuang, Yang Zheng, Frano Rajič, Siyu Tang, Gordon Wetzstein
cs.AI

要旨

近年のビデオ拡散モデルは高い視覚的忠実度を実現しているが、シーンの動態とカメラモーションが本質的に結合されているため、精密な空間的・時間的制御を提供する能力が制限されている。本研究では、シーンの動態とカメラポーズを明示的に分離し、両者の細粒度な操作を可能にする4D制御可能なビデオ拡散フレームワークを提案する。本フレームワークは、連続的な世界時間シーケンスとカメラ軌道を条件付け入力として受け取り、アテンション層における4D位置エンコーディングと特徴量変調のための適応的正規化を介してビデオ拡散モデルに注入する。このモデルを訓練するため、時間的変化とカメラ変化が独立してパラメータ化された独自のデータセットを構築した。このデータセットは公開予定である。実験により、本モデルが多様なタイミングパターンとカメラ軌道にわたって堅牢な実世界4D制御を実現し、高い生成品質を維持しながら、制御性において従来手法を上回ることを示す。ビデオ結果はプロジェクトウェブサイト(https://19reborn.github.io/Bullet4D/)で公開されている。
English
Emerging video diffusion models achieve high visual fidelity but fundamentally couple scene dynamics with camera motion, limiting their ability to provide precise spatial and temporal control. We introduce a 4D-controllable video diffusion framework that explicitly decouples scene dynamics from camera pose, enabling fine-grained manipulation of both scene dynamics and camera viewpoint. Our framework takes continuous world-time sequences and camera trajectories as conditioning inputs, injecting them into the video diffusion model through a 4D positional encoding in the attention layer and adaptive normalizations for feature modulation. To train this model, we curate a unique dataset in which temporal and camera variations are independently parameterized; this dataset will be made public. Experiments show that our model achieves robust real-world 4D control across diverse timing patterns and camera trajectories, while preserving high generation quality and outperforming prior work in controllability. See our website for video results: https://19reborn.github.io/Bullet4D/
PDF31December 6, 2025