ChatPaper.aiChatPaper

BulletTime: Entkoppelte Steuerung von Zeit und Kameraposition für die Videogenerierung

BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

December 4, 2025
papers.authors: Yiming Wang, Qihang Zhang, Shengqu Cai, Tong Wu, Jan Ackermann, Zhengfei Kuang, Yang Zheng, Frano Rajič, Siyu Tang, Gordon Wetzstein
cs.AI

papers.abstract

Aufstrebende Video-Diffusionsmodelle erreichen zwar hohe visuelle Qualität, koppeln jedoch grundsätzlich die Szenendynamik mit der Kamerabewegung, was ihre Fähigkeit zur präzisen räumlichen und zeitlichen Steuerung einschränkt. Wir stellen ein 4D-steuerbares Video-Diffusionsframework vor, das die Szenendynamik explizit von der Kamerapose entkoppelt und so eine fein granulare Manipulation sowohl der Szenendynamik als auch des Kamerablickwinkels ermöglicht. Unser Framework nutzt kontinuierliche Weltzeit-Sequenzen und Kameratrajektorien als Konditionierungseingaben, die durch eine 4D-Positionskodierung in der Attention-Schicht und adaptive Normalisierungen zur Feature-Modulation in das Video-Diffusionsmodell injiziert werden. Um dieses Modell zu trainieren, haben wir einen einzigartigen Datensatz kuratiert, in dem zeitliche und kamerabezogene Variationen unabhängig parametrisiert sind; dieser Datensatz wird öffentlich zugänglich gemacht. Experimente zeigen, dass unser Modell eine robuste 4D-Steuerung in der realen Welt über diverse Zeitmuster und Kameratrajektorien hinweg erreicht, dabei eine hohe Generierungsqualität beibehält und frühere Arbeiten in Bezug auf Steuerbarkeit übertrifft. Videoergebnisse sind auf unserer Website verfügbar: https://19reborn.github.io/Bullet4D/
English
Emerging video diffusion models achieve high visual fidelity but fundamentally couple scene dynamics with camera motion, limiting their ability to provide precise spatial and temporal control. We introduce a 4D-controllable video diffusion framework that explicitly decouples scene dynamics from camera pose, enabling fine-grained manipulation of both scene dynamics and camera viewpoint. Our framework takes continuous world-time sequences and camera trajectories as conditioning inputs, injecting them into the video diffusion model through a 4D positional encoding in the attention layer and adaptive normalizations for feature modulation. To train this model, we curate a unique dataset in which temporal and camera variations are independently parameterized; this dataset will be made public. Experiments show that our model achieves robust real-world 4D control across diverse timing patterns and camera trajectories, while preserving high generation quality and outperforming prior work in controllability. See our website for video results: https://19reborn.github.io/Bullet4D/
PDF31December 6, 2025